专栏名称: AIWalker
关注计算机视觉、图像处理、深度学习等领域的干货分享与前沿paper解读。AIWalker由具有多年算法研究与产品化落地经验的Happy运营,原创为主、同时会转载优秀解读文章。欢迎志同道合的小伙伴们加入一同学习进步。
今天看啥  ›  专栏  ›  AIWalker

最强最快ViT诞生 | CAS-ViT 提升图像分类、目标检测、语义分割等任务性能,可部署到手机端!!

AIWalker  · 公众号  ·  · 2024-08-14 22:00

文章预览

视觉 Transformer (ViTs)与它们的标记混合器的强大全局上下文能力标志着神经网络的革命性进步。然而,标记之间的双向亲和力和复杂的矩阵运算限制了它们在资源受限的场景和实时应用(如移动设备)上的部署,尽管在以前的工作中已经做出了显著的努力。 在本论文中,作者提出CAS-ViT:卷积加性自注意力视觉 Transformer ,以在移动应用的效率和性能之间实现平衡。首先,作者认为标记混合器获取全局上下文信息的能力取决于多个信息交互,例如空间域和通道域。因此,作者遵循这一范例构建了一种新颖的加性相似度函数,并提出了一个高效的实现,名为卷积加性标记混合器(CATM)。这种简化导致了计算开销极大降低。 作者在各种视觉任务上评估CAS-ViT,包括图像分类、目标检测、实例分割和语义分割。 作者在GPU、ONNX和iPhone上进行的实验表明,与 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览