Transformer为什么一定要添加一个Positional Encoding模块？

自动驾驶Daily · 公众号 · · 2024-11-21 07:30

文章预览

作者 | Sirius 编辑 | 自动驾驶Daily 原文链接：https://zhuanlan.zhihu.com/p/7202317478 点击下方卡片，关注“ 自动驾驶Daily ”公众号戳我-> 领取近15个自动驾驶方向路线 >> 点击进入→ 自动驾驶Daily技术交流群微信扫描以下二维码，『自动驾驶之心知识星球』，国内最专业的技术和求职交流社区，和3500人一起卷赢之前老喜欢死记硬背transformer的网络架构，虽然内容并不复杂，但是发现这个transformer模块中的positional encoding在死记硬背的情况之下很容易被忽略。为了更好地理解为什么transformer一定需要有一个positional encoding，简单推了一下公式先说结论：没有Positional Encoding的transformer架构具有置换等变性。证明如下： 1. 对self-attn的公式推导其中的是可训练的权重矩阵。首先计算Query和Key之间的点积，得到注意力权重矩阵：然后计算自注意力输出： 2. 假 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

墨香中华 · 钱，就像内裤（精辟）

2 天前

墨香中华 · 藏在《山海经》的“女侠风”网名

3 天前

墨香中华 · 儿子因公殉职，2年后，母亲在商场看到熟悉的背影，拽住对方痛哭：儿子，是你吗？妈妈好想你！

5 天前

晚点LatePost · 【#苹果对iPhone产线动刀# 】2018 年，富士康宣称 1-20240625233030

5 月前

何夕 · 没用的。想谈判？运河已经启动，不可能中止。想打仗？中国停了两艘0-20240818115105

3 月前