文章预览
现有的方法通过利用视觉-语言模型( VLMs )(如 CLIP )强大的开放词汇识别能力来增强开放词汇目标检测,然而出现了两个主要挑战:( 1 )概念表示不足, CLIP 文本空间中的类别名称缺乏文本和视觉知识。( 2 )对基础类别的过拟合倾向,在从 VLMs 到检测器的转移过程中,开放词汇知识偏向于基础类别。 为了解决这些挑战,论文提出了语言模型指令( LaMI )策略,该策略利用视觉概念之间的关系,并将其应用于一种简单而有效的类似 DETR 的检测器,称为 LaMI-DETR 。 LaMI 利用 GPT 构建视觉概念,并使用 T5 研究类别之间的视觉相似性。类别之间的这些关系改善了概念表示,避免了对基础类别的过拟合。全面的实验验证了该方法在相同严格设置下的优越性能,不依赖于外部训练资源。 来源:晓飞的算法工程笔记 公众号,转载请注明出处 论文: LaMI-DETR:
………………………………