专栏名称: 人工智能前沿讲习
领先的人工智能知识平台
今天看啥  ›  专栏  ›  人工智能前沿讲习

从 MaxViT 到 ACC-ViT:视觉 Transformer 的紧凑型网络实现参数与性能的双重优化 !

人工智能前沿讲习  · 公众号  ·  · 2024-06-24 18:00
    

文章预览

现代视觉 Transformer 通过在窗口或网格区域内计算注意力来利用像素之间的视觉启发的局部交互,这与原始ViT中使用的全局注意力形成对比。 区域注意力将像素交互限制在特定区域内,而稀疏注意力则将它们分散在稀疏的网格中。这些不同的方法在保持层次关系与捕捉全局上下文之间提出了挑战。 在本文中,作者从扩张卷积获得灵感,提出了扩张注意力,这是一种结合了区域注意力和稀疏注意力的方法,它动态地整合局部和全局信息,同时保持层次结构。 基于此,作者引入了一种多功能混合视觉 Transformer  Backbone 网络ACC-ViT,专为标准视觉任务定制。作者紧凑的模型拥有不到2850万个参数,在ImageNet-1K上的准确率约为84%,比最先进MaxViT的准确率高0.42%,同时需要的参数减少了8.4%。 1 Introduction 早期的视觉 Transformer (ViT)探索了利用文本 Transformer 的看 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览