文章预览
原文:https://zhuanlan.zhihu.com/p/11913305485 从ChatGPT到Claude,这些模型的成功离不开PPO (Proximal Policy Optimization)的支撑。DPO (Direct Preference Optimization) 则以其 无需奖励建模的简化流程 在学术基准测试中表现优异,DPO号称以更低的计算成本,实现了与PPO相当的偏好对齐效果,然而DPO真的能取代PPO吗? 今年其实已经有不少文章例如 ICLR的 Is DPO Superior to PPO for LLM Alignment? A Comprehensive Study [2] 等文章通过详实的实验做过分析过两者的利弊。然而笔者读完还是十分好奇,DPO的原文曾做过从PPO到DPO的等价推导,那么从底层数学推理上看,究竟DPO在在又在哪些地方存在缺陷?或者说这个等价推导在哪里不等价呢? 于是有了本文的探讨,本文内容完全原创,理解可能存在纰漏,欢迎评论区指出。 首先我们来重温一下从PPO到DPO的推导: 从 PPO 到 DPO 的推导 DPO 的核心思想是
………………………………