专栏名称: 深度学习自然语言处理

一个从大三就接触NLP的小小NLPer，本公众号每天记录自己的一点一滴，每篇文章最后也有托福单词等新知识，学技术同时，也一点一滴积累额外的知识。期待与你在知识的殿堂与你相遇！

我也要提交微信公众号

今天看啥

公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词RSS订阅方法

知网期刊RSS订阅方法

即刻RSS订阅方法

简单图解一下线性注意力机制

深度学习自然语言处理 · 公众号 · 科技创业科技自媒体 · 2024-09-16 23:49

主要观点总结

本文梳理了线性注意力机制的各种方法，包括RNN、LSTM、Linear Attention的改进版，以及Mamba、Mamba-2、RWKV等方法。文章通过图解比较了各种方法的逻辑脉络，并介绍了线性注意力机制的好处以及并行和IO感知的优化。同时，文章还探讨了如何结合硬件进行注意力机制的系统级优化，以及线性注意力机制与full attention的表达能力差异。

关键观点总结

关键观点1: 线性注意力机制概述

线性注意力机制具有理论复杂度低、速度快、结构简单等优点。相比full attention，线性注意力机制的表达能力稍差，无法完全丢弃历史信息。但线性注意力机制具备很多并行和IO感知的优化，复杂度线性化后，若并行和运算速度不如full attention则显得鸡肋。

关键观点2: Linear Attention与非必要softmax

去掉softmax函数后的attention机制称为Linear Attention。通过改变QKV的计算顺序，可以实现矩阵乘法的复杂度从N^2级降低到N级，且运算过程与序列长度呈线性相关性。

关键观点3: Linear Attention与Full Attention的区别

Linear Attention通过更新SSM，将所有信息保留在SSM中。SSM大小不变，叠加进去的信息由于加法操作失去了具体的query指向，无法强调或丢弃特定信息。而Full Attention则保留了每个query与历史上每个生成token之间的关系。

关键观点4: RNN、LSTM与Linear Attention的联系

Linear Attention Transformers的论文标题为“Transformers are RNNs: Fast Autoregressive Transformers with Linear Attention”。LSTM是一种长短期记忆网络，通过一系列门控和组合机制，使hidden state space中的状态根据输入捕捉与历史信息关联紧密的部分。现在可以在RNN和LSTM的基础上套用Linear Attention进行表示。

关键观点5: Linear Attention的变种及Mamba、Mamba-2、RWKV等方法

Linear Attention的变种如Retention和GLA等，都在尝试解决Linear Attention的一些问题。Mamba结构更类似于RNN系列。Mamba-2提出了SSM衍生的SSA和SSD等概念。RWKV的time mixing模块是重点，它通过SSM的hidden state将Transformer中的Attention替换为RWKV独有的recurrent方式。

免责声明

免责声明：本文内容摘要由平台算法生成，仅为信息导航参考，不代表原文立场或观点。原文内容版权归原作者所有，如您为原作者并希望删除该摘要或链接，请通过【版权申诉通道】联系我们处理。

原文地址：访问原文地址
总结与预览地址：访问总结与预览
推荐产品: 推荐产品
文章地址：访问文章快照

分享到微博