DPO vs PPO：深度解读谁是LLM Alignment的未来

吃果冻不吐果冻皮 · 公众号 · · 2024-12-18 22:46

文章预览

原文：https://zhuanlan.zhihu.com/p/11913305485 从ChatGPT到Claude，这些模型的成功离不开PPO (Proximal Policy Optimization)的支撑。DPO (Direct Preference Optimization) 则以其无需奖励建模的简化流程在学术基准测试中表现优异，DPO号称以更低的计算成本，实现了与PPO相当的偏好对齐效果，然而DPO真的能取代PPO吗？今年其实已经有不少文章例如 ICLR的 Is DPO Superior to PPO for LLM Alignment? A Comprehensive Study [2] 等文章通过详实的实验做过分析过两者的利弊。然而笔者读完还是十分好奇，DPO的原文曾做过从PPO到DPO的等价推导，那么从底层数学推理上看，究竟DPO在在又在哪些地方存在缺陷？或者说这个等价推导在哪里不等价呢？于是有了本文的探讨，本文内容完全原创，理解可能存在纰漏，欢迎评论区指出。首先我们来重温一下从PPO到DPO的推导：从 PPO 到 DPO 的推导 DPO 的核心思想是 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博