文章预览
在论文《In Defense of Lazy Visual Grounding for Open-Vocabulary Semantic Segmentation》中,作者介绍了一种名为“Lazy Visual Grounding (LaVG)”的方法,用于处理开放词汇的语义分割任务。这种方法是一个两阶段的过程,首先通过无监督的对象掩码发现,然后进行对象定位。 具体来说,LaVG方法首先使用迭代的归一化割(Normalized cuts)算法来发现覆盖图像的对象掩码。这一步骤不涉及文本信息,完全基于视觉任务来区分视觉对象。接着,在晚些时候将文本分配给发现的对象,这是一种后期交互的方式。该模型不需要额外的训练,但在五个公共数据集上表现出色:Pascal VOC、Pascal Context、COCO-object、COCO-stuff和ADE 20K。特别是,视觉上吸引人的分割结果展示了模型精确定位对象的能力。 LaVG方法的关键贡献可以总结为: • 提出了LaVG,它首先发现对象,然后在后期交互中为对象分
………………………………