概念篇| Transformer家族

程序猿阿三 · 公众号 · · 2024-09-26 18:20

文章预览

点击蓝字关注我们不迷路 01 Transformer分类在《 Transformer原理》中我们介绍了，现在大模型基本是基于Transformer构建，其中最出名就是GPT和BERT模型, 按照模型的结构基本可以分为三类：纯Encoder模型（典型代表BERT，仅使用Transformer中的编码器），又称为自编码（auto-encoding）Transformer模型, 前缀序列中任意两个token都相互可见,一般用于句子分类等任务。纯Decoder模型（典型代表GPT，仅使用Transformer中的解码器），又称为自回归（auto-regressive）Transformer模型, 待生成的token可以看到Decoder侧已经生成的token，但不能看未来尚未产生的token 。 Encoder-Decoder模型（典型代表BART、T5），又称为Seq2Seq（sequence-to-sequence）Transformer模型, 待生成的token可以看到Encoder侧所有token(包括上下文)和Decoder侧已经生成的token，但不能看未来尚未产生的token 。 01 纯Encoder模型纯Encoder ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

中国中医 · 塞拉利昂——中国中医药中心揭牌成立

14 小时前

河北交通广播 · 【992 | 关注】机会来了！清华大学，宣布扩招

昨天

河北交通广播 · 【992 | 万象】63岁演员蔡明自曝“胆被摘除了”，因常年不吃早饭

昨天

白云仙院 · 中医：阴虚、阳虚傻傻分不清？教你分辨，对照看，你是哪一种！

2 天前

基本面价值 · 注意，下午开盘，盯住这个！

6 月前

赚不完亏得完R · 前几天看到一个评论，大概意思是：“你这么有钱了，还折腾个啥？”其-20250226151613

5 天前