今天看啥  ›  专栏  ›  NewBeeNLP

关于post-training和一些思考

NewBeeNLP  · 公众号  · 科技创业 科技自媒体  · 2024-09-23 11:05

主要观点总结

本文讨论了Llama3.1等开源大模型的post-training技术报告,包括DPO与PPO的选择、Preference Data的开源与数据质量、RLHF的迭代过程、Synthetic Data的合成与管理、Math and Reasoning的提升方法、Post-training的作用与展望等相关内容。

关键观点总结

关键观点1: DPO与PPO的选择

文章提到DPO对于大规模模型所需的计算更少,并且性能更好,尤其是在遵循IFEval等基准测试的指令方面。尽管学界已经有很多研究证实了PPO有更高的上限和表现,但几乎没有开源的大模型有具体实现PPO的细节。

关键观点2: Preference Data的开源与数据质量

文章讨论了开源偏好数据集的机构较少,尽管都宣称是开源的,但更像是免费使用的软件。同时提到了人的标注在LLM训练中的作用,以及只用LLM来判断哪个回答更好或者RM输出哪个奖励更高的可行性。

关键观点3: RLHF的迭代过程

文章阐述了RLHF作为一个迭代过程,从Llama 2的5轮训练到Llama 3的6轮训练,讨论了数据分批发放和防止reward hack的迭代原因。同时提到了迭代是否有上限,以及如何参照预训练里加SFT数据在预训练阶段加偏好数据。

关键观点4: Synthetic Data的合成与管理

文章重点讨论了合成数据在大模型训练中的作用,提到未来的大模型训练工作会把数据分为多个domain,每个domain都有一套自己的数据搜集、合成、过滤的pipeline。

关键观点5: Math and Reasoning的提升方法

文章介绍了在post-training中提升大模型数学和推理能力的三种方法,包括通过MCTS生成数据和value/reward model迭代提升、精心训练好Process Reward Model然后用PPO类的算法优化、用lean形式化问题然后从反馈中学习。

关键观点6: Post-training的作用与展望

文章讨论了RLHF在GPT问世后的作用及逐渐被业界接受的过程,以及未来工作的重点是如何建立一个好的pipeline来造偏好数据/合成数据。


文章预览

作者丨yanwushen  来源丨https://zhuanlan.zhihu.com/p/710936230  编辑丨极市平台 最近有趋势是要扩大post-training规模,本文讨论的就是Llama3.1等开源大模型的技术报告里的post-training部分,已经有很多文章提到其中的细节要点了,这里更着重于比较大的层面。 DPO vs PPO 整个93页报告当然是很有份量的,很大程度的推进了领域内的发展,但令人失望的是,没有像在 Llama 2 中使用 PPO 那样对 SFT->DPO 进行彻底的分析。另外,本来以为会有很多关于 DPO 与 PPO 怎么选择的内容,但文章里面只说了“我们还探索了 PPO 等在线策略算法,但发现 DPO 对于大规模模型所需的计算更少,并且性能更好,尤其是在遵循 IFEval 等基准测试的指令方面”。虽然学界已经有很多paper证实了PPO有更高的上限[1][2]和表现,但是几乎没有开源的大模型有具体实现PPO的细节,像QWEN,Llama用的是online DPO ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览