文章预览
前言 注意力模块是 Transformers 的关键组件。全局注意力机制具良好的模型表达能力,但过高的计算成本限制了其在各种场景中的应用。本文提出了一种新的注意力范式,代理注意力 (Agent Attention),同时具有高效性和很强的模型表达能力。 Pytorch训练营,花两个星期彻底掌握代码实现 CV各大方向专栏与各个部署框架最全教程整理 CV全栈指导班、基础入门班、论文指导班 全面上线!! 来源: 机器之心 仅用于学术分享,若侵权请联系删除 论文链接:https://arxiv.org/abs/2312.08874 代码链接:https://github.com/LeapLabTHU/Agent-Attention 具体来说,代理注意力在传统的注意力三元组 (Q,K,V) 中引入了一组额外的代理向量 A,定义了一种新的四元注意力机制 (Q, A, K, V)。其中,代理向量 A 首先作为查询向量 Q 的代理,从 K 和 V 中聚合信息,然后将信息广播回 Q。由于代理向量的
………………………………