专栏名称: AI有道
一个有情怀、有良心的公众号。AI领域机器学习、深度学习等知识集中营,干货满满。期待与你共同进步!
今天看啥  ›  专栏  ›  AI有道

字节三面:attention中的Q,K,V怎么来的?

AI有道  · 公众号  ·  · 2024-12-18 10:54
    

主要观点总结

本文主要介绍了重新发明注意力机制的方式,并用文本分类的BERT模型举例说明了查询+聚合的注意力机制过程。文章详细解释了如何查询和聚合信息,以及注意力机制中的角色分配问题。同时,回答了关于注意力机制的一些常见问题。

关键观点总结

关键观点1: 文章概述了如何重新发明注意力机制并举例用于文本分类的BERT模型。

使用查询+聚合的方式来解释注意力机制,将注意力机制比作烹饪过程,如烹饪佛跳墙的步骤。

关键观点2: 文章详细解释了如何查询信息。

介绍了通过给文章中所有token分配向量来查询信息的方法,包括如何计算注意力分数和分配Q、K、V向量。

关键观点3: 文章详细解释了如何聚合信息。

解释了如何通过加权和的方式将重要token的存在性信息聚合在一起,以及Q、K、V在聚合中的角色和功能。

关键观点4: 文章回答了关于注意力机制的常见问题。

包括attention中Q、K、V的区别和角色,以及为何需要多个Q、K和V等问题。


文章预览

作者:TRiddle@知乎  仅用作学术分享 链接:https://www.zhihu.com/question/325839123/answer/3309301644 本质上就是查询+聚合。而且非常符合直觉,不需要任何公式就能说明这点。我们可以试着“重新发明”一下注意力机制。 现在想象一下,假如你想做一道名菜——佛跳墙,你会怎么做?你会先去菜市场里找到鲍鱼、海参、花胶、瑶柱,然后带回家将它们煮在一起对吧。 而一个用于文本分类的 BERT 做的事也一样,也是找到一些东西然后将它们煮在一起。 比方说如果想要识别一篇文章中是否在讲佛跳墙,要做的就是查找文章中是否存在相邻的“佛、跳、墙”(当然,“佛、跳、墙”的上下文也很重要,请允许我做些简化),然后将这三个存在性信息聚合在一起,最后从 [cls] token 的位置输出出去。 或者说,用 [cls] 来查询和聚合“佛、跳、墙”。 1.如何查询 首先面 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览