字节三面：attention中的Q,K,V怎么来的？

AI有道 · 公众号 · · 2024-12-18 10:54

主要观点总结

本文主要介绍了重新发明注意力机制的方式，并用文本分类的BERT模型举例说明了查询+聚合的注意力机制过程。文章详细解释了如何查询和聚合信息，以及注意力机制中的角色分配问题。同时，回答了关于注意力机制的一些常见问题。

关键观点总结

关键观点1: 文章概述了如何重新发明注意力机制并举例用于文本分类的BERT模型。

使用查询+聚合的方式来解释注意力机制，将注意力机制比作烹饪过程，如烹饪佛跳墙的步骤。

关键观点2: 文章详细解释了如何查询信息。

介绍了通过给文章中所有token分配向量来查询信息的方法，包括如何计算注意力分数和分配Q、K、V向量。

关键观点3: 文章详细解释了如何聚合信息。

解释了如何通过加权和的方式将重要token的存在性信息聚合在一起，以及Q、K、V在聚合中的角色和功能。

关键观点4: 文章回答了关于注意力机制的常见问题。

包括attention中Q、K、V的区别和角色，以及为何需要多个Q、K和V等问题。

文章预览

作者：TRiddle@知乎仅用作学术分享链接：https://www.zhihu.com/question/325839123/answer/3309301644 本质上就是查询+聚合。而且非常符合直觉，不需要任何公式就能说明这点。我们可以试着“重新发明”一下注意力机制。现在想象一下，假如你想做一道名菜——佛跳墙，你会怎么做？你会先去菜市场里找到鲍鱼、海参、花胶、瑶柱，然后带回家将它们煮在一起对吧。而一个用于文本分类的 BERT 做的事也一样，也是找到一些东西然后将它们煮在一起。比方说如果想要识别一篇文章中是否在讲佛跳墙，要做的就是查找文章中是否存在相邻的“佛、跳、墙”（当然，“佛、跳、墙”的上下文也很重要，请允许我做些简化），然后将这三个存在性信息聚合在一起，最后从 [cls] token 的位置输出出去。或者说，用 [cls] 来查询和聚合“佛、跳、墙”。 1.如何查询首先面 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博