专栏名称: 自动驾驶Daily
专注自动驾驶与AI
今天看啥  ›  专栏  ›  自动驾驶Daily

Transformer为什么一定要添加一个Positional Encoding模块?

自动驾驶Daily  · 公众号  ·  · 2024-11-21 07:30

文章预览

作者 | Sirius  编辑 | 自动驾驶Daily 原文链接:https://zhuanlan.zhihu.com/p/7202317478 点击下方 卡片 ,关注“ 自动驾驶Daily ”公众号 戳我->  领取近15个自动驾驶方向路线 >> 点击进入→ 自动驾驶Daily技术交流群 微信扫描以下二维码, 『自动驾驶之心知识星球』 , 国内最专业的技术和求职交流社区, 和3500人一起卷赢 之前老喜欢死记硬背transformer的网络架构,虽然内容并不复杂,但是发现这个transformer模块中的positional encoding在死记硬背的情况之下很容易被忽略。为了更好地理解为什么transformer一定需要有一个positional encoding,简单推了一下公式 先说结论:没有Positional Encoding的transformer架构具有置换等变性。 证明如下: 1. 对self-attn的公式推导 其中的 是可训练的权重矩阵。首先计算Query和Key之间的点积,得到注意力权重矩阵: 然后计算自注意力输出: 2. 假 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览