专栏名称: 吃果冻不吐果冻皮
专注于AI工程化(LLM、MLOps、LLMOps、RAG、Agent)落地。
今天看啥  ›  专栏  ›  吃果冻不吐果冻皮

DPO vs PPO:深度解读谁是LLM Alignment的未来

吃果冻不吐果冻皮  · 公众号  ·  · 2024-12-18 22:46
    

文章预览

  原文:https://zhuanlan.zhihu.com/p/11913305485 从ChatGPT到Claude,这些模型的成功离不开PPO (Proximal Policy Optimization)的支撑。DPO (Direct Preference Optimization) 则以其 无需奖励建模的简化流程 在学术基准测试中表现优异,DPO号称以更低的计算成本,实现了与PPO相当的偏好对齐效果,然而DPO真的能取代PPO吗? 今年其实已经有不少文章例如 ICLR的 Is DPO Superior to PPO for LLM Alignment? A Comprehensive Study [2] 等文章通过详实的实验做过分析过两者的利弊。然而笔者读完还是十分好奇,DPO的原文曾做过从PPO到DPO的等价推导,那么从底层数学推理上看,究竟DPO在在又在哪些地方存在缺陷?或者说这个等价推导在哪里不等价呢? 于是有了本文的探讨,本文内容完全原创,理解可能存在纰漏,欢迎评论区指出。 首先我们来重温一下从PPO到DPO的推导: 从 PPO 到 DPO 的推导 DPO 的核心思想是 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览