主要观点总结
本文梳理了线性注意力机制的各种方法,包括RNN、LSTM、Linear Attention的改进版,以及Mamba、Mamba-2、RWKV等方法。文章通过图解比较了各种方法的逻辑脉络,并介绍了线性注意力机制的好处以及并行和IO感知的优化。同时,文章还探讨了如何结合硬件进行注意力机制的系统级优化,以及线性注意力机制与full attention的表达能力差异。
关键观点总结
关键观点1: 线性注意力机制概述
线性注意力机制具有理论复杂度低、速度快、结构简单等优点。相比full attention,线性注意力机制的表达能力稍差,无法完全丢弃历史信息。但线性注意力机制具备很多并行和IO感知的优化,复杂度线性化后,若并行和运算速度不如full attention则显得鸡肋。
关键观点2: Linear Attention与非必要softmax
去掉softmax函数后的attention机制称为Linear Attention。通过改变QKV的计算顺序,可以实现矩阵乘法的复杂度从N^2级降低到N级,且运算过程与序列长度呈线性相关性。
关键观点3: Linear Attention与Full Attention的区别
Linear Attention通过更新SSM,将所有信息保留在SSM中。SSM大小不变,叠加进去的信息由于加法操作失去了具体的query指向,无法强调或丢弃特定信息。而Full Attention则保留了每个query与历史上每个生成token之间的关系。
关键观点4: RNN、LSTM与Linear Attention的联系
Linear Attention Transformers的论文标题为“Transformers are RNNs: Fast Autoregressive Transformers with Linear Attention”。LSTM是一种长短期记忆网络,通过一系列门控和组合机制,使hidden state space中的状态根据输入捕捉与历史信息关联紧密的部分。现在可以在RNN和LSTM的基础上套用Linear Attention进行表示。
关键观点5: Linear Attention的变种及Mamba、Mamba-2、RWKV等方法
Linear Attention的变种如Retention和GLA等,都在尝试解决Linear Attention的一些问题。Mamba结构更类似于RNN系列。Mamba-2提出了SSM衍生的SSA和SSD等概念。RWKV的time mixing模块是重点,它通过SSM的hidden state将Transformer中的Attention替换为RWKV独有的recurrent方式。
免责声明
免责声明:本文内容摘要由平台算法生成,仅为信息导航参考,不代表原文立场或观点。
原文内容版权归原作者所有,如您为原作者并希望删除该摘要或链接,请通过
【版权申诉通道】联系我们处理。