文章预览
原文:https://zhuanlan.zhihu.com/p/987052830 前言 今年工业界陆续开源了多款优秀的大语言模型,并放出了技术报告,本文整理工业界主流开源LLM的后训练方案,着重介绍训练算法和数据处理部分。以下是模型列表: 1.Llama3(Meta) 2.Qwen2(阿里云) 3.Nemotron(Nvidia) 4.AFM(Apple) 5.Yi(01ai) 6.GLM-4(智谱) 7.Gemma2(Google) 8.DeepSeek-V2(DeepSeek) 9.Baichuan2 Alignment(百川) 总结以上技术报告,可以发现一些基本趋势: 1.数据合成已成为工业界主流LLM后训练的基本方案,未来大概率也会持续发展,快速开发出领先的数据合成pipeline,有助于企业保持领先地位。 2.善用LLM-as-judge和拒绝采样技术。在偏好数据的构造上,Llama3、Qwen2、Baichuan2、AFM均采用拒绝采样(Rejection sampling)技术。用不同规模、不同参数的模型多次采样,再使用LLM和人工评估构造偏好样本
………………………………