今天看啥  ›  专栏  ›  晓飞的算法工程笔记

CVPR'24 | ScanFormer:逐层抵达目标,基于特征金字塔的指代表达理解框架

晓飞的算法工程笔记  · 公众号  ·  · 2024-09-12 12:00

文章预览

指代表达理解( REC )旨在在图像中定位由自由形式自然语言描述指定的目标对象。尽管最先进的方法取得了令人印象深刻的性能,但它们对图像进行了密集感知,包含与语言查询无关的多余视觉区域,导致额外的计算开销。这启发论文探讨一个问题:能否消除与语言无关的多余视觉区域,以提高模型的效率?现有的相关方法主要侧重于基本的视觉任务,在视觉语言领域的探索有限。为了解决这一问题,论文提出了一个称为 ScanFormer 的粗到细的迭代感知框架。该框架逐层利用图像尺度金字塔,从上到下提取与语言相关的视觉图像块。在每次迭代中,通过设计的信息预测方法丢弃不相关的图像块。此外,论文提出了一个用于加速推断的被丢弃图像块的选择策略。在广泛使用的数据集 RefCOCO 、 RefCOCO +、 RefCOCOg 和 ReferItGame 上的实验证明了该框架有效性 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览