注册登录

专栏名称: 机器学习初学者

号主黄博Github全球排名前90，3.6万Star！致力于为初学者提供学习路线和基础资料，公众号可以当作随身小抄，文章很全，建议收藏！点击菜单可以进入学习！

我也要提交微信公众号

今天看啥

公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词RSS订阅方法

知网期刊RSS订阅方法

即刻RSS订阅方法

目录

相关文章推荐

架构师之路 · 有个小伙伴，写了一篇《非官方社群入门指南》... · 昨天

田俊国讲坛 · 为什么你永远追不上行业专家？揭秘高手都在隐藏 ... · 2 天前

发票夹 · 2025【家庭教育指导师】培训报名通道已开启 ... · 2 天前

发票夹 · 2025【家庭教育指导师】培训报名通道已开启 ... · 2 天前

天心教育 · 教育发布丨天心区校外培训机构"年检成绩单"出 ... · 3 天前

天心教育 · 教育发布丨天心区校外培训机构"年检成绩单"出 ... · 3 天前

今天看啥 › 专栏 › 机器学习初学者

【深度学习】如何理解attention中的Q,K,V？

机器学习初学者 · 公众号 · · 2024-06-20 12:00

文章预览

来源 | 知乎问答地址 | https://www.zhihu.com/question/298810062 本文仅作学术分享，若侵权请联系后台删文处理 01 回答一：作者-不是大叔我们直接用torch 实现一个SelfAttention 来说一说： 1.首先定义三个线性变换矩阵，query, key, value： class BertSelfAttention(nn.Module): self.query = nn.Linear(config.hidden_size, self.all_head_size) # 输入768，输出768 self.key = nn.Linear(config.hidden_size, self.all_head_size) # 输入768，输出768 self.value = nn.Linear(config.hidden_size, self.all_head_size) # 输入768，输出768 注意，这里的query, key, value只是一种操作(线性变换)的名称，实际的Q/K/V是它们三个的输出 2. 假设三种操作的输入都是同一个矩阵（暂且先别管为什么输入是同一个矩阵），这里暂且定为长度为L的句子，每个token的特征维度是768，那么输入就是（L, 768），每一行就是一个字 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

架构师之路 · 有个小伙伴，写了一篇《非官方社群入门指南》...

昨天

田俊国讲坛 · 为什么你永远追不上行业专家？揭秘高手都在隐藏层做的事

2 天前

发票夹 · 2025【家庭教育指导师】培训报名通道已开启，不限学历，18岁及以上可报！

2 天前

发票夹 · 2025【家庭教育指导师】培训报名通道已开启，不限学历，18岁及以上可报！

2 天前

天心教育 · 教育发布丨天心区校外培训机构"年检成绩单"出炉，21所优秀！

3 天前

天心教育 · 教育发布丨天心区校外培训机构"年检成绩单"出炉，21所优秀！

3 天前

新华社 · 今晚调油价

11 月前

国际旅游岛商报 · 多人死亡！海南交警公布3起交通事故案例

4 月前

创投日报 · 15亿！又一央企布局创投

4 月前

Vehicle · 2025 CES 英伟达发布洞察：Agentic AI/Physical AI 快速落地，未来已来

4 月前

掌上铜山 · “刘德华又要到超市上班了”

4 月前

关于移动版 · RSS之家 · 卧龙AI搜索 · 更多产品 ·

今天看啥 - 公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

© 2025 ~ 沪ICP备11025650号