专栏名称: 将门创投
将门是一家专注于发掘及加速技术创新激活商业价值的创业公司的创投机构。将门旗下设有将门创新服务、将门技术社群以及将门投资基金。关注领域包括机器智能、物联网、自然人机交互、企业计算。
今天看啥  ›  专栏  ›  将门创投

视觉定位任务入门必读,十年发展系统性综述回顾

将门创投  · 公众号  · 科技创业  · 2025-02-14 08:22
    

文章预览

27页综述,354 篇参考文献。内容覆盖过去十年的视觉定位发展总结,尤其对最近5年的视觉定位论文系统性回顾,内容既涵盖传统基于检测器的视觉定位,基于VLP的视觉定位,基于MLLM的视觉定位,也涵盖从全监督、无监督、弱监督、半监督、零样本、广义定位等新型设置下的视觉定位。 视觉定位任务新入门必 读! 跟进最新进展,视觉定位审稿人必读论文! 论文题目:  Towards Visual Grounding: A Survey  论文链接: https://arxiv.org/pdf/2412.20206 代码链接: https://github.com/linhuixiao/Awesome-Visual-Grounding 一、摘要 视觉定位(Visual Grounding)也被称为指代表达文本理解(Referring Expression Comprehension)和短语定位(Phrase Grounding)。它涉及根据给定的文本描述在图像中定位自然数量的特定区域。该任务的目标是模拟社会对话中普遍存在的指代关系,使机器具有类似人类的 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览