注册登录

专栏名称: 深度学习基础与进阶

一个百度人的技术提升之路，为您提供一系列计算机视觉，自然语言处理和推荐系统等高质量技术文章，让您的碎片化时间最大价值化

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

目录

相关文章推荐

经视直播 · 演员杨洋案，判了！ · 6 小时前

经视直播 · 直播微视评：“消费券”抵工资，你想干什么？ · 2 天前

经视直播 · -3℃！武汉即将狂降10℃ · 2 天前

经视直播 · 直播微视评：清华女硕士转行蓝翔学厨，是真有底气 · 4 天前

今天看啥 › 专栏 › 深度学习基础与进阶

有位大佬逐模块解析transformer结构

深度学习基础与进阶 · 公众号 · · 2024-08-24 10:44

文章预览

transformer是一种编解码（encoder-decoer）结构，用于自然语言处理、计算机视觉等领域，编解码结构是当前大模型必包含的部分。编解码结构图： image-20240221221206633 transformer模块编码输入得到特征，然后解码得到输出。 transformer论文的一张经典图：结合transformer论文和代码，模块主要包括了：词嵌入模块（input embedding）位置编码模块（Positional Encoding）多头注意力机制模块（Multi-Head Attention）层归一化模块（LayNorm）残差模块前馈神经网络模块（FFN）交叉多头注意力机制模块（Cross Multi-Head Attention）掩膜多头注意力机制模块（Masked Multi-Head Attention）接下来一一介绍上述几个模块。 1. 词嵌入模块词嵌入模块调用nn.Embedding，其主要作用是将每个单词表示成一个向量，方便下一步计算和处理。 class TokenEmbedding (nn.Embedding) : """ Token Embedding ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

经视直播 · 演员杨洋案，判了！

6 小时前

经视直播 · 直播微视评：“消费券”抵工资，你想干什么？

2 天前

经视直播 · -3℃！武汉即将狂降10℃

2 天前

经视直播 · 直播微视评：清华女硕士转行蓝翔学厨，是真有底气

4 天前

浙商银行FICC · 债券自动化做市报价策略回测实践

6 月前

奇果酱 · 华为 Mate 70 或「迟到」，鸿蒙微信又有新消息！

5 月前

墨香中华 · 中秋节｜一首《回家》祝您平安回家，月圆人团圆！

3 月前

生物多样性与生态保育 · 【悦读365·第1144天】近期土地使用历史与城市森林构成之间的关联

3 月前

关于移动版 · Py中国 · RSS之家 · CodingPro · Code · Link之家 · 卧龙AI搜索 · 小百科 · 51好读 · 小百科（海外） · Link管理

今天看啥 - 微信公众号rss订阅, 微信rss, 稳定的RSS源

© 2024 ~ 沪ICP备11025650号