专栏名称: 吃果冻不吐果冻皮
专注于AI工程化(LLM、MLOps、LLMOps、RAG、Agent)落地。
今天看啥  ›  专栏  ›  吃果冻不吐果冻皮

工业界主流大语言模型后训练(Post-Training)技术总结

吃果冻不吐果冻皮  · 公众号  ·  · 2024-12-16 13:57
    

文章预览

  原文:https://zhuanlan.zhihu.com/p/987052830 前言 今年工业界陆续开源了多款优秀的大语言模型,并放出了技术报告,本文整理工业界主流开源LLM的后训练方案,着重介绍训练算法和数据处理部分。以下是模型列表:  1.Llama3(Meta)  2.Qwen2(阿里云)  3.Nemotron(Nvidia)  4.AFM(Apple)  5.Yi(01ai)  6.GLM-4(智谱)  7.Gemma2(Google)  8.DeepSeek-V2(DeepSeek)  9.Baichuan2 Alignment(百川) 总结以上技术报告,可以发现一些基本趋势: 1.数据合成已成为工业界主流LLM后训练的基本方案,未来大概率也会持续发展,快速开发出领先的数据合成pipeline,有助于企业保持领先地位。 2.善用LLM-as-judge和拒绝采样技术。在偏好数据的构造上,Llama3、Qwen2、Baichuan2、AFM均采用拒绝采样(Rejection sampling)技术。用不同规模、不同参数的模型多次采样,再使用LLM和人工评估构造偏好样本 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览