文章预览
全景场景图生成( PSG )的目标是对对象进行分割并识别它们之间的关系,从而实现对图像的结构化理解。以往的方法主要集中于预测预定义的对象和关系类别,因此限制了它们在开放世界场景中的应用。随着大型多模态模型( LMMs )的快速发展,开放集对象检测和分割已经取得了重大进展,但 PSG 中的开放集关系预测仍然未被探索。 论文专注于开放集关系预测任务,并将其与一个预训练的开放集全景分割模型结合,以实现真正的开放集全景场景图生成( OpenPSG )。 OpenPSG 利用 LMMs 以自回归的方式实现开放集关系预测,引入了一个关系查询变换器,以高效地提取对象对的视觉特征,并估计它们之间关系的存在。后者可以通过过滤不相关的对来提高预测效率。最后,论文设计了生成和判断指令,以自回归的方式在 PSG 中执行开放集关系预测。大量实验
………………………………