专栏名称: CV技术指南
长期更新:深度学习、计算机视觉相关技术的总结;图像处理相关知识;最新论文;经典论文;论文综述、tensorflow和pytorch等内容总结。涉及领域 :神经网络模型、transformer模型、目标检测、语义分割、目标跟踪、视频理解等。
今天看啥  ›  专栏  ›  CV技术指南

CVPR'24 | ScanFormer:逐层抵达目标,基于特征金字塔的指代表达理解框架

CV技术指南  · 公众号  ·  · 2024-09-23 16:25

文章预览

前言   指代表达理解(REC)旨在在图像中定位由自由形式自然语言描述指定的目标对象。尽管最先进的方法取得了令人印象深刻的性能,但它们对图像进行了密集感知,包含与语言查询无关的多余视觉区域,导致额外的计算开销。这启发论文探讨一个问题: 能否消除与语言无关的多余视觉区域,以提高模型的效率 ? 现有的相关方法主要侧重于基本的视觉任务,在视觉语言领域的探索有限。为了解决这一问题,论文提出了一个 称为ScanFormer的粗到细的迭代感知框架 。该框架逐层利用图像尺度金字塔,从上到下提取与语言相关的视觉图像块。在每次迭代中,通过设计的信息预测方法丢弃不相关的图像块。 Pytorch训练营,花两个星期彻底掌握代码实现 CV各大方向专栏与各个部署框架最全教程整理 CV全栈指导班、基础入门班、论文指导班 全面上线!! 来源 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览