专栏名称: CV技术指南
长期更新:深度学习、计算机视觉相关技术的总结;图像处理相关知识;最新论文;经典论文;论文综述、tensorflow和pytorch等内容总结。涉及领域 :神经网络模型、transformer模型、目标检测、语义分割、目标跟踪、视频理解等。
今天看啥  ›  专栏  ›  CV技术指南

快手 & 北邮 开源 CAT | 交叉注意力Transformer ,融合局部与全局信息,降低计算成本 !

CV技术指南  · 公众号  ·  · 2024-07-06 19:35

文章预览

前言   自从Transformer在NLP中得到广泛应用,其在CV领域的潜力也被认识到并激发了许多新方法。然而,在图像分块后,用图像块替换词标记进行Transformer的计算量巨大(例如,ViT),这限制了模型的训练和推理。在本文中,作者提出了一种新的Transformer中的注意力机制,称为交叉注意力(Cross Attention),它交替地在图像块内部进行注意力,而不是整个图像,以捕捉局部信息,并在从单通道特征图划分出的图像块之间应用注意力以捕捉全局信息。 这两种操作的运算量都小于标准Transformer中的自注意力。通过交替应用块内和块间的注意力,作者实现了交叉注意力,以保持较低的计算成本并构建了一个分层网络,称为交叉注意力Transformer(CAT),用于其他视觉任务。 Pytorch训练营,花两个星期彻底掌握代码实现 CV各大方向专栏与各个部署框架最全教程整理 CV ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览