专栏名称: 吃果冻不吐果冻皮
专注于AI工程化(LLM、MLOps、LLMOps、RAG、Agent)落地。
今天看啥  ›  专栏  ›  吃果冻不吐果冻皮

关于post-training和一些思考

吃果冻不吐果冻皮  · 公众号  ·  · 2024-09-03 08:10

文章预览

【点击】 加入大模型技术交流群 原文:https://zhuanlan.zhihu.com/p/710936230 最近有趋势是要扩大post-training规模,本文讨论的就是Llama3.1等开源大模型的技术报告里的post-training部分,已经有很多文章提到其中的细节要点了,这里更着重于比较大的层面。 DPO vs PPO 整个93页报告当然是很有份量的,很大程度的推进了领域内的发展,但令人失望的是,没有像在 Llama 2 中使用 PPO 那样对 SFT->DPO 进行彻底的分析。另外,本来以为会有很多关于 DPO 与 PPO 怎么选择的内容,但文章里面只说了“我们还探索了 PPO 等在线策略算法,但发现 DPO 对于大规模模型所需的计算更少,并且性能更好,尤其是在遵循 IFEval 等基准测试的指令方面 ”。虽然学界已经有很多paper证实了PPO有更高的上限[1][2]和表现,但是几乎没有开源的大模型有具体实现PPO的细节,像Qwen,Llama用的是online DP ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览