一个从大三就接触NLP的小小NLPer,本公众号每天记录自己的一点一滴,每篇文章最后也有托福单词等新知识,学技术同时,也一点一滴积累额外的知识。期待与你在知识的殿堂与你相遇!
目录
今天看啥  ›  专栏  ›  深度学习自然语言处理

简单图解一下线性注意力机制

深度学习自然语言处理  · 公众号  · 科技创业 科技自媒体  · 2024-09-16 23:49
    

主要观点总结

本文梳理了线性注意力机制的各种方法,包括RNN、LSTM、Linear Attention的改进版,以及Mamba、Mamba-2、RWKV等方法。文章通过图解比较了各种方法的逻辑脉络,并介绍了线性注意力机制的好处以及并行和IO感知的优化。同时,文章还探讨了如何结合硬件进行注意力机制的系统级优化,以及线性注意力机制与full attention的表达能力差异。

关键观点总结

关键观点1: 线性注意力机制概述

线性注意力机制具有理论复杂度低、速度快、结构简单等优点。相比full attention,线性注意力机制的表达能力稍差,无法完全丢弃历史信息。但线性注意力机制具备很多并行和IO感知的优化,复杂度线性化后,若并行和运算速度不如full attention则显得鸡肋。

关键观点2: Linear Attention与非必要softmax

去掉softmax函数后的attention机制称为Linear Attention。通过改变QKV的计算顺序,可以实现矩阵乘法的复杂度从N^2级降低到N级,且运算过程与序列长度呈线性相关性。

关键观点3: Linear Attention与Full Attention的区别

Linear Attention通过更新SSM,将所有信息保留在SSM中。SSM大小不变,叠加进去的信息由于加法操作失去了具体的query指向,无法强调或丢弃特定信息。而Full Attention则保留了每个query与历史上每个生成token之间的关系。

关键观点4: RNN、LSTM与Linear Attention的联系

Linear Attention Transformers的论文标题为“Transformers are RNNs: Fast Autoregressive Transformers with Linear Attention”。LSTM是一种长短期记忆网络,通过一系列门控和组合机制,使hidden state space中的状态根据输入捕捉与历史信息关联紧密的部分。现在可以在RNN和LSTM的基础上套用Linear Attention进行表示。

关键观点5: Linear Attention的变种及Mamba、Mamba-2、RWKV等方法

Linear Attention的变种如Retention和GLA等,都在尝试解决Linear Attention的一些问题。Mamba结构更类似于RNN系列。Mamba-2提出了SSM衍生的SSA和SSD等概念。RWKV的time mixing模块是重点,它通过SSM的hidden state将Transformer中的Attention替换为RWKV独有的recurrent方式。


免责声明

免责声明:本文内容摘要由平台算法生成,仅为信息导航参考,不代表原文立场或观点。 原文内容版权归原作者所有,如您为原作者并希望删除该摘要或链接,请通过 【版权申诉通道】联系我们处理。

原文地址:访问原文地址
总结与预览地址:访问总结与预览
推荐产品:   推荐产品
文章地址: 访问文章快照