文章预览
27 页综述,354 篇参考文献!史上最详尽的视觉定位综述,内容覆盖过去十年的视觉定位发展总结,尤其对最近 5 年的视觉定位论文系统性回顾,内容既涵盖传统基于检测器的视觉定位,基于 VLP 的视觉定位,基于 MLLM 的视觉定位,也涵盖从全监督、无监督、弱监督、半监督、零样本、广义定位等新型设置下的视觉定位。 论文题目: Towards Visual Grounding: A Survey 工作内容: 视觉定位(Visual Grounding)任务十年发展系统性回顾 论文链接: https://arxiv.org/pdf/2412.20206 代码/仓库链接: https://github.com/linhuixiao/Awesome-Visual-Grounding 摘要 视觉定位(Visual Grounding)也被称为指代表达文本理解(Referring Expression Comprehension)和短语定位(Phrase Grounding)。它涉及根据给定的文本描述在图像中定位自然数量的特定区域。 该任务的目标是模拟社会对话中普遍存在的指代关系,
………………………………