文章预览
关注并星标 从此不迷路 计算机视觉研究院 公众号ID | ComputerVisionGzq 学习群 | 扫码在主页获取加入方式 论文地址 :https://arxiv.org/pdf/2207.05501.pdf 计算机视觉研究院专栏 一种用于在现实工业场景中高效部署的下一代 Vision Transformer。它通过引入 Next Convolution Block (NCB) 和 Next Transformer Block (NTB),在局部和全局信息捕获方面取得了显著的性能改进。 一、总概述 NCB 和 NTB 分别使用新颖的部署友好的多头卷积注意力 (MHCA) 和轻量级的高低频信号混合器来增强建模能力。为了进一步提高性能,设计了 Next Hybrid Strategy (NHS),通过在每个阶段以新的混合范式堆叠 NCB 和 NTB,大大降低了 Transformer 块的比例,并在各种下游任务中最大程度地保留了 Vision Transformer 网络的高精度。 与现有的基于 CNN 和 ViT 的方法相比,Next-ViT 在延迟/准确性权衡方面表现出优越的性能。 实
………………………………