文章预览
本文是对论文(Is DPO Superior to PPO for LLM Alignment? A Comprehensive Study)的部分解析。因为找了几个知乎文章如 黄哲威 hzwer:[大模型 07] 相比 PPO ,DPO 还是个弟弟:Is DPO Superior to PPO for LLM Alignment? yearn:大模型对齐算法-DPO系列最新进展 看了不是很清楚,故对其中的 “PPO找到的策略为DPO找到的策略的真子集”这一结论进行简单的梳理。文章的背景是现在很多榜单会有很多都是通过DPO对齐的模型占据了前列,但实际上OpenAI、Anthropic等产出过ChatGPT、Claude等最牛的模型的公司都是在主张PPO,所以从理论和实际的角度,对“PPO优于DPO”这一结论做了说明。 第一部分 理论分析 背景公式: 一、PPO策略属于DPO策略 定义ΠPPO为ppo策略集合;ΠPPO为DPO策略集合,奖励模型在数据集D上得到,ppo和dpo同时用各自的方式去去优化RLHF。R为奖励的函数空间。 因为 minπ LDPO(π) = min
………………………………