主要观点总结
文章详细介绍了从RNN到self-attention,再到Transformer的算法演变过程,解释了RNN的长距离依赖问题,LSTM的时序依赖问题,self-attention的矩阵化、本质、QKV思想,Positional Encoding的位置信息整合,Transformers的encoder-decoder架构,Cross-Attention和Multi-head Attention,Feed Forward Layer,Residual Network与Layer Norm。文章不仅解释了这些概念,还鼓励读者思考如何一步步做出Transformer的整个结构,并理解其细节。
关键观点总结
关键观点1: RNN的长距离依赖问题
RNN由于其隐藏状态更新方式,在长距离依赖上存在问题,导致信息不平等,需要改进模型结构。
关键观点2: LSTM的时序依赖问题
LSTM使用记忆单元存储先前信息,有效减轻了长距离依赖问题,但依然存在信息不对等和扩展性差的问题。
关键观点3: self-attention的矩阵化
self-attention使用矩阵运算代替时序依赖,实现并行化,提高计算效率。
关键观点4: Positional Encoding的位置信息整合
Positional Encoding通过修改token的embedding,使模型感知token在序列中的位置信息。
关键观点5: Transformers的encoder-decoder架构
Transformer使用encoder-decoder架构,通过self-attention和cross-attention实现seq2seq任务。
关键观点6: Multi-head Attention
Multi-head Attention通过增加注意力头的数量,增大参数量,增加特征提取器的分化程度,提高性能。
关键观点7: Feed Forward Layer
Feed Forward Layer作为非线性层,增加模型的非线性能力,并增加模型的容量。
文章预览
↑ 点击 蓝字 关注极市平台 作者丨HeptaAI@知乎(已授权)转载请联系原作者授权 来源丨https://zhuanlan.zhihu.com/p/630356292 编辑丨极市平台 极市导读 本文从RNN到self-attention,再到Transformer来讲清楚整个算法。 >> 泻药。近半年来有大量同学来找我问Transformer的一些细节问题,例如Transformer与传统seq2seq RNN的区别、self-attention层的深入理解、masked self-attention的运作机制;以及各种Transformer中的思路如何运用到自己的算法中,例如Transformer是怎么实现并行化的,decoder是怎么用cross-attention把context vector整合进来的,等等。在这篇文章中,我们将从RNN到self-attention,再到Transformer来讲清楚整个算法。注意,这不是一篇纯粹的科普文,更像是一个hands-on的作业,文中会大量出现要求读者思考的问题,尽力让同学们自己去想想如何一步步做出Transformer的整个结构,以至
………………………………