文章预览
点击蓝字 关注我们 不迷路 01 Transformer分类 在《 Transformer原理 》中我们介绍了,现在大模型基本是基于Transformer构建,其中最出名就是GPT和BERT模型, 按照模型的结构基本可以分为三类: 纯Encoder模型 (典型代表BERT,仅使用Transformer中的编码器),又称为自编码(auto-encoding)Transformer模型, 前缀序列中任意两个token都相互可见,一般用于 句子分类等任务 。 纯Decoder模型 (典型代表GPT,仅使用Transformer中的解码器),又称为自回归(auto-regressive)Transformer模型, 待生成的token可以看到Decoder侧已经生成的token,但不能看未来尚未产生的token 。 Encoder-Decoder模型 (典型代表BART、T5),又称为Seq2Seq(sequence-to-sequence)Transformer模型, 待生成的token可以看到Encoder侧所有token(包括上下文)和Decoder侧已经生成的token,但不能看未来尚未产生的token 。 01 纯Encoder模型 纯Encoder
………………………………