文章预览
点击下方卡片,关注 「集智书童」 公众号 点击加入👉 「集智书童」 交流群 近年来,Transformer在计算机视觉任务中取得了显著进展。然而,它们的全局建模往往伴随着相当大的计算开销,与人类眼睛高效的信息处理形成鲜明对比。受人类眼睛稀疏扫描机制的启发,作者提出了一个稀疏扫描自注意力机制(S A)。 该机制为每个标记预定义了一系列感兴趣 Anchor 点,并使用局部注意力来高效建模这些 Anchor 点周围的空间信息,避免了多余的全局建模和对局部信息的过度关注。这种方法模仿了人类眼睛的功能,并显著降低了视觉模型的计算负担。基于S A,作者引入了稀疏扫描视觉Transformer(SSViT)。 广泛的实验证明了SSViT在多种任务上的卓越性能。 特别是在ImageNet分类任务中,在没有额外监督或训练数据的情况下,SSViT取得了 84.4%/85.7% 的top-1准确率,且
………………………………