专栏名称: 智见AGI
神州问学公众号是围绕生成式AI技术的交流社区,与开发者和合作伙伴共同探究有深度的生成式AI技术前沿洞见、技术迭代、案例解析、方法和实践,助力企业的数字化转型
今天看啥  ›  专栏  ›  智见AGI

Why decoder-only? LLM架构的演化之路

智见AGI  · 公众号  ·  · 2024-07-12 15:32

文章预览

如何根据大模型架构进行选型 ©作者 | Zhongmei 来源 | 神州问学 引言 本文想为大型语言模型(LLMs)及其下游自然语言处理(NLP)任务的实践者和用户提供一份全面且实用的指南。将从模型架构的角度出发,对比不同架构的特点,希望可以从最底层给大模型选型一些参考意见。 以及针对大模型架构的演变过程做出探究,分析decoder-only成为主流架构背后的原因。 大模型常见架构 LLM(大型语言模型)的架构命名某种程度上是混乱而反常的。所谓的“decoder-only(仅解码器)”实际上意味着“自回归编码器-解码器”。“encoder only(仅编码器)” 实际上包含一个编码器和解码器(非自回归),而所谓的“encoder-decoder(编码器-解码器)”真实含义是”自回归编码器-解码器“ —— Yann Lecun 这个小节会简要介绍常见的不同的大模型的模型架构和用例。目前比较 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览