文章预览
以下 文 章来源于微信公众号: 集智书童 作者: 小书童 链接:https://mp.weixin.qq.com/s/5egzO0eupRKeK0VgSqSV6g 本文仅用于学术分享,如有侵权,请联系 后 台作删文处理 导读 本文 作者提出了一种新颖的模型无关Sparse视觉Transformer,称为SparseFormer,以弥合近距离和HRW拍摄之间的目标检测差距。所提出的SparseFormer选择性地使用注意力 Token 来仔细检查可能包含目标的Sparse分布窗口。通过这种方式,它可以通过融合粗粒度和细粒度特征来共同探索全局和局部注意力,以处理巨大的尺度变化。 前言 近年来,使用像素级图像和视频捕捉系统以及具有高分辨率宽视角(HRW)的基准测试越来越多。然而,与MS COCO数据集中的近距离拍摄不同,更高的分辨率和更宽的视野带来了独特的挑战,如极端 Sparse 性和巨大的尺度变化,导致现有的近距离检测器不准确且效率低下。 在
………………………………