中科院提出 SSViT | 稀疏扫描视觉 Transformer，模拟人类视觉图像识别，显著提高性能，准确率 top-1 ！！

集智书童 · 公众号 · · 2024-05-29 09:00

文章预览

点击下方卡片，关注「集智书童」公众号点击加入👉 「集智书童」交流群近年来，Transformer在计算机视觉任务中取得了显著进展。然而，它们的全局建模往往伴随着相当大的计算开销，与人类眼睛高效的信息处理形成鲜明对比。受人类眼睛稀疏扫描机制的启发，作者提出了一个稀疏扫描自注意力机制（S A）。该机制为每个标记预定义了一系列感兴趣 Anchor 点，并使用局部注意力来高效建模这些 Anchor 点周围的空间信息，避免了多余的全局建模和对局部信息的过度关注。这种方法模仿了人类眼睛的功能，并显著降低了视觉模型的计算负担。基于S A，作者引入了稀疏扫描视觉Transformer（SSViT）。广泛的实验证明了SSViT在多种任务上的卓越性能。特别是在ImageNet分类任务中，在没有额外监督或训练数据的情况下，SSViT取得了 84.4%/85.7% 的top-1准确率，且 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

艾邦高分子 · 【邀请函】2025可持续环保材料论坛（4月14日深圳）

昨天

高分子科技 · 香港城市大学朱平安课题组《Mater. Horiz.》：可编程光热各向异性微马达自组装结构用于多模态运动

2 天前

高分子科技 · 天科大程博闻教授团队 JACS：半结晶嵌段共聚物刷溶液自组装构筑均一尺寸二维片状胶束

2 天前

高分子科学前沿 · 新型医疗器械！华师大张利东教授团队AHM：研发出壳聚糖单组分的水凝胶导尿管支架，抗菌、润滑、可降解，有望取代传统塑料导尿管！

2 天前

清风云南 · 脆李不再“开口笑”

6 月前

阿虚同学 · ⠀储物间2-1-2栏，新增安娜图书馆国内直连访问软件（含 z 站大量资源）储物间1－8 栏，更新部分TVBox视频源链接（解决部分地区因网络影响无法添加）储物间7-5-5栏，测试更新了目前依旧可用的免费普通话学习测试APP储物间7－21栏，更新多款免费的安卓多开分身APP╲╱╲╱ 公众号文章批量下载软件，最近重新测试了一番，就暂不重新写了目前还在更新、依旧能免费用的软件，大概还剩３款新增一款由qiye45开发的软件，更新了由xiaoguyu开发的软件（Github已停更，挖到了作者博客私下更新的新版）

1 月前

​中科院提出 SSViT | 稀疏扫描视觉 Transformer，模拟人类视觉图像识别，显著提高性能，准确率 top-1 ！！

文章预览

中科院提出 SSViT | 稀疏扫描视觉 Transformer，模拟人类视觉图像识别，显著提高性能，准确率 top-1 ！！