专栏名称: 极市平台
极市平台是由深圳极视角推出的专业的视觉算法开发与分发平台,为视觉开发者提供多领域实景训练数据库等开发工具和规模化销售渠道。本公众号将会分享视觉相关的技术资讯,行业动态,在线分享信息,线下活动等。 网站: http://cvmart.net/
今天看啥  ›  专栏  ›  极市平台

Self-Attention & Transformer完全指南:像Transformer的创作者一样思考

极市平台  · 公众号  · 设计 科技媒体  · 2024-11-12 22:00

主要观点总结

文章详细介绍了从RNN到self-attention,再到Transformer的算法演变过程,解释了RNN的长距离依赖问题,LSTM的时序依赖问题,self-attention的矩阵化、本质、QKV思想,Positional Encoding的位置信息整合,Transformers的encoder-decoder架构,Cross-Attention和Multi-head Attention,Feed Forward Layer,Residual Network与Layer Norm。文章不仅解释了这些概念,还鼓励读者思考如何一步步做出Transformer的整个结构,并理解其细节。

关键观点总结

关键观点1: RNN的长距离依赖问题

RNN由于其隐藏状态更新方式,在长距离依赖上存在问题,导致信息不平等,需要改进模型结构。

关键观点2: LSTM的时序依赖问题

LSTM使用记忆单元存储先前信息,有效减轻了长距离依赖问题,但依然存在信息不对等和扩展性差的问题。

关键观点3: self-attention的矩阵化

self-attention使用矩阵运算代替时序依赖,实现并行化,提高计算效率。

关键观点4: Positional Encoding的位置信息整合

Positional Encoding通过修改token的embedding,使模型感知token在序列中的位置信息。

关键观点5: Transformers的encoder-decoder架构

Transformer使用encoder-decoder架构,通过self-attention和cross-attention实现seq2seq任务。

关键观点6: Multi-head Attention

Multi-head Attention通过增加注意力头的数量,增大参数量,增加特征提取器的分化程度,提高性能。

关键观点7: Feed Forward Layer

Feed Forward Layer作为非线性层,增加模型的非线性能力,并增加模型的容量。


文章预览

↑ 点击 蓝字  关注极市平台 作者丨HeptaAI@知乎(已授权)转载请联系原作者授权 来源丨https://zhuanlan.zhihu.com/p/630356292 编辑丨极市平台 极市导读   本文从RNN到self-attention,再到Transformer来讲清楚整个算法。   >> 泻药。近半年来有大量同学来找我问Transformer的一些细节问题,例如Transformer与传统seq2seq RNN的区别、self-attention层的深入理解、masked self-attention的运作机制;以及各种Transformer中的思路如何运用到自己的算法中,例如Transformer是怎么实现并行化的,decoder是怎么用cross-attention把context vector整合进来的,等等。在这篇文章中,我们将从RNN到self-attention,再到Transformer来讲清楚整个算法。注意,这不是一篇纯粹的科普文,更像是一个hands-on的作业,文中会大量出现要求读者思考的问题,尽力让同学们自己去想想如何一步步做出Transformer的整个结构,以至 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览