文章预览
以下 文 章来源于微信公众号:数据派YJU 作者:数据派THU 链接:https://mp.weixin.qq.com/s/Yke_VpZzkqxJqiqBnZw55A 本文仅用于学术分享,如有侵权,请联系 后 台作删文处理 导读 自注意力机制作为Transformer的核心模块,其强大的性能使得其被移植到各种任务中。那么自注意力机制为什么如此强大呢,本文通过图文结合的方式给大家做了详细讲解。 一、注意力机制和自注意力机制的区别 Attention机制与Self-Attention机制的区别: 传统的Attention机制发生在Target的元素和Source中的所有元素之间。 简单讲就是说Attention机制中的权重的计算需要Target来参与。即在Encoder-Decoder 模型中,Attention权值的计算不仅需要Encoder中的隐状态而且还需要Decoder中的隐状态。 Self-Attention: 不是输入语句和输出语句之间的Attention机制,而是输入语句内部元素之间或者输出语句内部元素之间发生
………………………………