主要观点总结
本文主要介绍了重新发明注意力机制的方式,并用文本分类的BERT模型举例说明了查询+聚合的注意力机制过程。文章详细解释了如何查询和聚合信息,以及注意力机制中的角色分配问题。同时,回答了关于注意力机制的一些常见问题。
关键观点总结
关键观点1: 文章概述了如何重新发明注意力机制并举例用于文本分类的BERT模型。
使用查询+聚合的方式来解释注意力机制,将注意力机制比作烹饪过程,如烹饪佛跳墙的步骤。
关键观点2: 文章详细解释了如何查询信息。
介绍了通过给文章中所有token分配向量来查询信息的方法,包括如何计算注意力分数和分配Q、K、V向量。
关键观点3: 文章详细解释了如何聚合信息。
解释了如何通过加权和的方式将重要token的存在性信息聚合在一起,以及Q、K、V在聚合中的角色和功能。
关键观点4: 文章回答了关于注意力机制的常见问题。
包括attention中Q、K、V的区别和角色,以及为何需要多个Q、K和V等问题。
文章预览
作者:TRiddle@知乎 仅用作学术分享 链接:https://www.zhihu.com/question/325839123/answer/3309301644 本质上就是查询+聚合。而且非常符合直觉,不需要任何公式就能说明这点。我们可以试着“重新发明”一下注意力机制。 现在想象一下,假如你想做一道名菜——佛跳墙,你会怎么做?你会先去菜市场里找到鲍鱼、海参、花胶、瑶柱,然后带回家将它们煮在一起对吧。 而一个用于文本分类的 BERT 做的事也一样,也是找到一些东西然后将它们煮在一起。 比方说如果想要识别一篇文章中是否在讲佛跳墙,要做的就是查找文章中是否存在相邻的“佛、跳、墙”(当然,“佛、跳、墙”的上下文也很重要,请允许我做些简化),然后将这三个存在性信息聚合在一起,最后从 [cls] token 的位置输出出去。 或者说,用 [cls] 来查询和聚合“佛、跳、墙”。 1.如何查询 首先面
………………………………