有位大佬逐模块解析transformer结构

深度学习基础与进阶 · 公众号 · · 2024-09-19 14:02

文章预览

transformer 是一种编解码（encoder-decoer）结构，用于自然语言处理、计算机视觉等领域，编解码结构是当前大模型必包含的部分。编解码结构图： image-20240221221206633 transformer模块编码输入得到特征，然后解码得到输出。 transformer论文的一张经典图：结合transformer论文和代码，模块主要包括了：词嵌入模块（input embedding）位置编码模块（Positional Encoding）多头注意力机制模块（Multi-Head Attention）层归一化模块（LayNorm）残差模块前馈神经网络模块（FFN）交叉多头注意力机制模块（Cross Multi-Head Attention）掩膜多头注意力机制模块（Masked Multi-Head Attention）接下来一一介绍上述几个模块。 1. 词嵌入模块词嵌入模块调用nn.Embedding，其主要作用是将每个单词表示成一个向量，方便下一步计算和处理。 class TokenEmbedding (nn.Embedding) : """ Token Embedding using torc ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

培训江湖 · 公开课 | 如何做好年度培训总结与培训规划10月26日深圳开班

2 天前

培训江湖 · 公开课｜ TDF敏捷学习地图开发公开课10月无锡开班

5 天前

培训江湖 · 公开课 | 完美授课技巧首发惊爆价￥2180，仅限10人

2 天前

培训江湖 · 训练营 | TDF人才发展菁英线上特训营22期火热招生中

6 天前

培训江湖 · 走向管理岗，必须懂这13个人才管理铁律

6 天前

冯站长之家 · 2024年8月19日（周一）冯站长之家三分钟晚间新闻

1 月前