专栏名称: 专知
专知,为人工智能从业者服务,提供专业可信的人工智能知识与技术服务,让认知协作更快更好!
今天看啥  ›  专栏  ›  专知

27页综述,354篇参考文献!最详尽的视觉定位综述来了

专知  · 公众号  ·  · 2025-02-21 11:00
    

文章预览

论文题目:Towards Visual Grounding: A Survey 工作内容:视觉定位(Visual Grounding)任务十年发展系统性回顾 论文链接:https://arxiv.org/pdf/2412.20206 代码 / 仓库链接:https://github.com/linhuixiao/Awesome-Visual-Grounding. 作者:肖麟慧(中国科学院自动化研究所,中国科学院大学) 27 页综述,354 篇参考文献!史上最详尽的视觉定位综述,内容覆盖过去十年的视觉定位发展总结,尤其对最近 5 年的视觉定位论文系统性回顾,内容既涵盖传统基于检测器的视觉定位,基于 VLP 的视觉定位,基于 MLLM 的视觉定位,也涵盖从全监督、无监督、弱监督、半监督、零样本、广义定位等新型设置下的视觉定位。 视觉定位任务新入门必读!跟进最新进展,视觉定位审稿人必读论文! 一、论文摘要 视觉定位(Visual Grounding)也被称为指代表达文本理解(Referring Expression Comprehension)和短语定位(Ph ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览