文章预览
transformer是一种编解码(encoder-decoer)结构,用于自然语言处理、计算机视觉等领域,编解码结构是当前大模型必包含的部分。 编解码结构图: image-20240221221206633 transformer模块编码输入得到特征,然后解码得到输出。 transformer论文的一张经典图: 结合transformer论文和代码,模块主要包括了: 词嵌入模块(input embedding) 位置编码模块(Positional Encoding) 多头注意力机制模块(Multi-Head Attention) 层归一化模块(LayNorm) 残差模块 前馈神经网络模块(FFN) 交叉多头注意力机制模块(Cross Multi-Head Attention) 掩膜多头注意力机制模块(Masked Multi-Head Attention) 接下来一一介绍上述几个模块。 1. 词嵌入模块 词嵌入模块调用nn.Embedding,其主要作用是将每个单词表示成一个向量,方便下一步计算和处理。 class TokenEmbedding (nn.Embedding) : """ Token Embedding
………………………………