一个百度人的技术提升之路,为您提供一系列计算机视觉,自然语言处理和推荐系统等高质量技术文章,让您的碎片化时间最大价值化
目录
相关文章推荐
今天看啥  ›  专栏  ›  深度学习基础与进阶

有位大佬逐模块解析transformer结构

深度学习基础与进阶  · 公众号  ·  · 2024-08-24 10:44

文章预览

transformer是一种编解码(encoder-decoer)结构,用于自然语言处理、计算机视觉等领域,编解码结构是当前大模型必包含的部分。 编解码结构图: image-20240221221206633 transformer模块编码输入得到特征,然后解码得到输出。 transformer论文的一张经典图: 结合transformer论文和代码,模块主要包括了: 词嵌入模块(input embedding) 位置编码模块(Positional Encoding) 多头注意力机制模块(Multi-Head Attention) 层归一化模块(LayNorm) 残差模块 前馈神经网络模块(FFN) 交叉多头注意力机制模块(Cross Multi-Head Attention) 掩膜多头注意力机制模块(Masked Multi-Head Attention) 接下来一一介绍上述几个模块。 1. 词嵌入模块 词嵌入模块调用nn.Embedding,其主要作用是将每个单词表示成一个向量,方便下一步计算和处理。 class   TokenEmbedding (nn.Embedding) :      """     Token Embedding  ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览