专栏名称: 程序猿阿三
知识的传播者和搬运工,计算机技术学习与传播,社会现象思考和分享
今天看啥  ›  专栏  ›  程序猿阿三

概念篇| Transformer家族

程序猿阿三  · 公众号  ·  · 2024-09-26 18:20

文章预览

点击蓝字 关注我们 不迷路 01 Transformer分类 在《 Transformer原理 》中我们介绍了,现在大模型基本是基于Transformer构建,其中最出名就是GPT和BERT模型, 按照模型的结构基本可以分为三类: 纯Encoder模型 (典型代表BERT,仅使用Transformer中的编码器),又称为自编码(auto-encoding)Transformer模型, 前缀序列中任意两个token都相互可见,一般用于 句子分类等任务 。 纯Decoder模型 (典型代表GPT,仅使用Transformer中的解码器),又称为自回归(auto-regressive)Transformer模型, 待生成的token可以看到Decoder侧已经生成的token,但不能看未来尚未产生的token 。 Encoder-Decoder模型 (典型代表BART、T5),又称为Seq2Seq(sequence-to-sequence)Transformer模型, 待生成的token可以看到Encoder侧所有token(包括上下文)和Decoder侧已经生成的token,但不能看未来尚未产生的token 。 01 纯Encoder模型 纯Encoder ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览