专栏名称: 深度学习与NLP
专注深度学习、NLP相关技术、资讯,追求纯粹的技术,享受学习、分享的快乐。
今天看啥  ›  专栏  ›  深度学习与NLP

LLM预训练和后训练新范式

深度学习与NLP  · 公众号  ·  · 2024-08-31 00:00

主要观点总结

本文翻译了Sebastian Raschka的“New LLM Pre-training and Post-training Paradigms”,介绍了四个大型语言模型(LLM)的预训练和后训练方法。这四个模型分别是阿里巴巴的Qwen 2、苹果的苹果智能基础模型(AFM)、谷歌的Gemma 2和Meta的Llama 3.1。

关键观点总结

关键观点1: 阿里巴巴的Qwen 2预训练和后训练方法

Qwen 2模型预训练在7万亿训练数据上进行,并采用了两阶段预训练方法。后训练采用了监督指令微调(SFT)和直接偏好优化(DPO)。

关键观点2: 苹果的AFM预训练和后训练方法

AFM模型注重数据质量而非数量,在预训练过程中使用了核心预训练、持续预训练和上下文扩展三个阶段。后训练结合了监督微调、人工标注数据和合成数据,并采用了多种偏好调优算法。

关键观点3: 谷歌的Gemma 2预训练和后训练方法

Gemma 2模型注重开发相对较小且高效的LLMs。预训练过程中采用了知识蒸馏和滑动窗口注意力机制。后训练包括监督微调(SFT)和带有人类反馈的强化学习(RLHF)步骤。

关键观点4: Meta的Llama 3.1预训练和后训练方法

Llama 3.1模型在巨大的15.6万亿标记数据集上进行预训练,并采用了三阶段的预训练方法。后训练采用了监督微调(SFT)、拒绝采样和直接偏好优化(DPO),并使用了模型平均技术来提高性能。


文章预览

本文翻译自 Sebastian Raschka 的“New LLM Pre-training and Post-training Paradigms” ,他也是 《Build a Large Language Model (from Scratch)》这本书的作者,强烈推荐一下,译者是知友 @铁头爱摆摊。 原文: https://magazine.sebastianraschka.com/p/new-llm-pre-training-and-post-training 译文: https://zhuanlan.zhihu.com/p/715138042 大型语言模型(LLM)的发展已经取得了长足的进步,从早期的GPT模型到我们今天拥有的复杂的开放权重LLM。 最初,LLM的训练过程仅集中于预训练,但后来扩展到包括预训练和后训练。 后训练通常包括监督指令微调和对齐,这些是由ChatGPT普及的。 自ChatGPT首次发布以来,训练方法已经发生了变化。在本文中,我回顾了最近几个月在预训练和后训练方法论方面的最新进展。 本文讨论的新预训练和后训练方法论,概述了LLM开发和训练流程 每个月都有数百篇LLM论文提出新技术和 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览