文章预览
在 科 学 研 究 中 , 从 方 法 论 上 来 讲 , 都 应 “ 先 见 森 林 , 再 见 树 木 ” 。 当 前 , 人 工 智 能 学 术 研 究 方 兴 未 艾 , 技 术 迅 猛 发 展 , 可 谓 万 木 争 荣 , 日 新 月 异 。 对 于 A I 从 业 者 来 说 , 在 广 袤 的 知 识 森 林 中 , 系 统 梳 理 脉 络 , 才 能 更 好 地 把 握 趋 势 。 为 此 , 我 们 精 选 国 内 外 优 秀 的 综 述 文 章 , 开 辟 “ 综 述 专 栏 ” , 敬 请 关 注 。 论文: https://arxiv.org/abs/2407.03200 代码: github.com/WeitaiKang/SegVG 动机 视觉定位(Visual Grounding)旨在基于自由形式的自然语言文本表达定位图像中的目标物体。随着多模态推理系 统的普及,如视觉问答和图像描述,视觉定位的重要性愈加凸显。已有的研究大致可以分为三类:两阶段方法、单 阶段方法和基于变换器(Transformer)的方法。尽管这些方法取得了良好的效
………………………………