深度学习、机器学习、大数据技术社区,分享各类算法原理与源码、数据处理、可视化、爬虫、竞赛开源代码等资源。 如需推送广告合作请联系微个人号: hai299014
今天看啥  ›  专栏  ›  机器学习AI算法工程

【NLP】多头注意力(Multi-Head Attention)的概念解析

机器学习AI算法工程  · 公众号  ·  · 2024-08-16 11:00
    

文章预览

向AI转型的程序员都关注公众号 机器学习AI算法工程 一. 多头注意力 多头注意力(Multi-Head Attention)是一种在Transformer模型中被广泛采用的注意力机制扩展形式,它通过并行地运行多个独立的注意力机制来获取输入序列的不同子空间的注意力分布,从而更全面地捕获序列中潜在的多种语义关联。 在多头注意力中,输入序列首先通过三个不同的线性变换层分别得到Query、Key和Value。然后,这些变换后的向量被划分为若干个“头”,每个头都有自己独立的Query、Key和Value矩阵。对于每个头,都执行一次Scaled Dot-Product Attention(缩放点积注意力)运算,即: 最后,所有头的输出会被拼接(concatenate)在一起,然后再通过一个线性层进行融合,得到最终的注意力输出向量。 通过这种方式,多头注意力能够并行地从不同的角度对输入序列进行注意力处理,提高了 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览