专栏名称: 集智书童
书童带你领略视觉前沿之美,精选科研前沿、工业实用的知识供你我进步与学习!
今天看啥  ›  专栏  ›  集智书童

​中科院提出 SSViT | 稀疏扫描视觉 Transformer,模拟人类视觉图像识别,显著提高性能,准确率 top-1 !!

集智书童  · 公众号  ·  · 2024-05-29 09:00
    

文章预览

点击下方卡片,关注 「集智书童」 公众号 点击加入👉 「集智书童」 交流群 近年来,Transformer在计算机视觉任务中取得了显著进展。然而,它们的全局建模往往伴随着相当大的计算开销,与人类眼睛高效的信息处理形成鲜明对比。受人类眼睛稀疏扫描机制的启发,作者提出了一个稀疏扫描自注意力机制(S A)。 该机制为每个标记预定义了一系列感兴趣 Anchor 点,并使用局部注意力来高效建模这些 Anchor 点周围的空间信息,避免了多余的全局建模和对局部信息的过度关注。这种方法模仿了人类眼睛的功能,并显著降低了视觉模型的计算负担。基于S A,作者引入了稀疏扫描视觉Transformer(SSViT)。 广泛的实验证明了SSViT在多种任务上的卓越性能。 特别是在ImageNet分类任务中,在没有额外监督或训练数据的情况下,SSViT取得了 84.4%/85.7% 的top-1准确率,且 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览