专栏名称: arXiv每日学术速递
跟踪计算机视觉、人工智能、机器学习、NLP、语音识别、量化金融等热门方向学术信息
目录
相关文章推荐
鸿洋  ·  Android ... ·  4 天前  
今天看啥  ›  专栏  ›  arXiv每日学术速递

最强最快ViT诞生 | CAS-ViT 提升图像分类、目标检测、语义分割等任务性能,可部署到手机端!!

arXiv每日学术速递  · 公众号  ·  · 2024-08-13 13:52

文章预览

视觉 Transformer (ViTs)与它们的标记混合器的强大全局上下文能力标志着神经网络的革命性进步。然而,标记之间的双向亲和力和复杂的矩阵运算限制了它们在资源受限的场景和实时应用(如移动设备)上的部署,尽管在以前的工作中已经做出了显著的努力。 在本论文中,作者提出CAS-ViT:卷积加性自注意力视觉 Transformer ,以在移动应用的效率和性能之间实现平衡。首先,作者认为标记混合器获取全局上下文信息的能力取决于多个信息交互,例如空间域和通道域。因此,作者遵循这一范例构建了一种新颖的加性相似度函数,并提出了一个高效的实现,名为卷积加性标记混合器(CATM)。这种简化导致了计算开销极大降低。 作者在各种视觉任务上评估CAS-ViT,包括图像分类、目标检测、实例分割和语义分割。 作者在GPU、ONNX和iPhone上进行的实验表明,与 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览