主要观点总结
文章主要介绍了LLaMA 3模型的结构、预训练过程、影响以及数据合成等方面。文章提到LLaMA 3模型结构趋于稳定,预训练过程包括初始预训练、长上下文预训练和退火三个阶段。文章还介绍了LLaMA 3模型带来的影响,包括开源模型效果快速追赶闭源模型,以及小模型崛起的三要素。此外,文章还提到了合成数据进入实用化阶段和驱动大模型效果提升的三要素。
关键观点总结
关键观点1: LLaMA 3模型结构
LLaMA 3模型结构如上图所示,基本形成目前Dense LLM模型的标准结构。很多LLM模型结构都与此非常接近。LLaMA 3主体结构是SFT+DPO的模式,但有自己的特殊设计。
关键观点2: LLaMA 3的预训练过程
LLaMA 3的预训练包括三个主要阶段:初始预训练、长上下文预训练和退火。初始预训练采用常规预训练阶段,逐步增大Batch Size以提高效率。长上下文预训练采用长文本数据对长序列进行训练,支持最多128K token的上下文窗口。退火阶段在预训练的最后4000万个token期间,线性地将学习率退火至0,同时调整数据混合配比,增加高质量数据的影响。
关键观点3: LLaMA 3的影响
LLaMA 3的开源对其他模型有重大影响,包括闭源模型和开源模型。对于闭源模型,如果其能力不及LLaMA 3,需要解释对用户收费的依据。对于开源模型,如果能力不如LLaMA 3,需要考虑如何作出差异化和特色。
关键观点4: 小模型崛起的三要素
小模型的关键在于如何通过其它技术手段不断提升模型效果。目前归纳的三个关键因素包括:预训练阶段增加训练数据数量和质量、模型蒸馏和Annealing Data。模型蒸馏和Annealing Data很可能存在一种“反规模效应”,即小模型的参数规模越小,这两个技术对其正面影响越大。
关键观点5: 合成数据进入实用化阶段
合成数据在Post-Training阶段已经产品化,包括完全由合成数据主导的SFT阶段。一个重点方向是在预训练阶段对数学、逻辑、代码等数据的合成。合成数据是模型蒸馏的一种变体,是一种特殊的模型蒸馏。
关键观点6: 驱动大模型效果提升的三要素
大模型能力仍在快速提升的主要驱动力有三个:不断扩大模型和数据规模(Scaling Law)、增加数学、逻辑、代码等能够提升大模型理性能力的数据配比比例,以及使用数学、逻辑、代码合成数据在Post-Training阶段的应用。
文章预览
↓ 推荐关注↓ 作者:张俊林,新浪微博新技术研发负责人 原文:https://zhuanlan.zhihu.com/p/710780476 LLama 3 405B模型效果已经赶上目前最好的闭源模型比如GPT 4o和Claude 3.5,这算是开源届的大事,技术报告接近100页,信息很丰富,粗略看了一下,很有启发。这里就LLaMA 3的模型结构、训练过程做些解读,并对其影响、小模型如何做、合成数据等方面谈点看法。 LLaMA 3模型结构 LLaMa 3模型结构 LLaMA 3的模型结构如上图所示,这基本已经形成目前Dense LLM模型的标准结构了,绝大多数LLM模型结构都与此非常接近。而很多采取MOE结构的LLM模型,其变化无非是把上图的FFN模块里的单个SwiGLU模块拓展成K个并联的SwiGLU模块,形成多个专家,再加上一个路由子网络来选择目前Token走这么多专家里的哪几个,如此而已,基本结构也差不太多(所以不要误会,MOE是Transformer的一种变
………………………………