2025年1月11号,课题组鄢智杰、王佐旭等在中科院一区TOP期刊Advanced Engineering Informatics 上发表论文《IndVisSGG: VLM-based scene graph generation for industrial spatial intelligence》
摘要:
工业空间智能使机器人和机床能够理解环境设置及其相互关系,从而实现对目标部件的操作。在这一过程中,场景图生成(Scene Graph Generation, SGG)是至关重要的环节。以往关于 SGG 的研究主要集中在目标的检测与全景分割,随后预测它们之间的成对关系。然而,这些方法在面对新场景时往往缺乏泛化性和可迁移性。为解决这一问题,本文提出了工业视觉场景图生成方法(IndVisSGG),用于解析工业时序场景中物体之间的空间关系与交互关系。该方法利用视觉语言模型(VLM)的能力,无需额外目标标注,即可快速准确地生成场景图。此外,基于 IndVisSGG 方法,我们设计了一套严谨的标注流程,构建了一个高质量的工业场景图生成(ISG)数据集,涵盖了10,000张制造及相关工业场景图像。通过与多种场景图生成方法在两个公开数据集上的对比实验,我们验证了 IndVisSGG 方法的优越性,并进一步证明了 ISG 数据集相较现有数据集的优势。
详情请参考:https://www.sciencedirect.com/science/article/pii/S1474034624007584