文章预览
本文转自:深度学习爱好者 链接: https://www.zhihu.com/question/448924025/answer/1801015343 编辑:深度学习与计算机视觉 声明:仅做学术分享,侵删 CNN是不是一种局部self-attention? 作者: 吼吼 https://www.zhihu.com/question/448924025/answer/1791134786 (本回答参考:李宏毅2021机器学习课程) cnn可不是一种局部的attention,那么我们来辨析一下cnn和attention都在做什么。 1:cnn可以理解为权值共享的局部有序的fc层,所以cnn有两个和fc层根本区别的特征,权值共享和局部连接。也就是在保证不丢失一些根本feature的情况下大大减少了参数量。 2:attention的步骤是通过Q和K点乘得到attention maritx并表示二者的相似性,即Q和K相似性越大的部分点乘越大,之后scale并softmax之后得到attention score,之后乘以V,得到attention之后的结果。 attention的本质是求Q和K的相似性,强调Q中和K相似的部分而已
………………………………