整理自然语言处理、推荐系统、搜索引擎等AI领域的入门笔记,论文学习笔记和面试资料(关于NLP那些你不知道的事、关于推荐系统那些你不知道的事、NLP百面百搭、推荐系统百面百搭、搜索引擎百面百搭)
今天看啥  ›  专栏  ›  关于NLP那些你不知道的事

大模型算法工程师经典面试题—:为什么在softmax之前要对attention进行scaled(为什么除以 d_k的平方根)?”

关于NLP那些你不知道的事  · 公众号  ·  · 2024-08-26 19:06

文章预览

NLP 经典面试题————:“为什么在进行softmax之前需要对attention进行scaled(为什么除以 d_k的平方根)?” 面试题 我们知道attention其实有很多种形式,而transformer论文中的attention是Scaled Dot-Porduct Attention 来计算keys和queries之间的关系。 如下图所示: 公式一 在公式一中,作者对 Q 和 K 进行点积以获得注意力权重,然后这些权重用于加权平均 V 。但在实际实现中,这个点积会被缩放,即除以keys的维度的平方根,常常表示为 。这里 是key向量的维度。 细心的同学都会发现,Attention 计算公式 中会 除以 根号d,那问题来了!!! Attention为什么要除以根号d 呢? 注:这个题目属于 NLP 面试中一个高频题,基本上问到 Attention 或者 Transformers 的时候都会问。(小编在找实习的时候,就被问了不止十次,现在抽空整理一下答案。) 标准答案 这个问题在《Attenti ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览