专栏名称: AINLP
关注AI、NLP相关技术,关注算法研发职位和课程;回复"文章"获取历史信息;双语聊天机器人"无名";中英翻译请输入:翻译 翻译内容;自动对联,请输入:上联 上联内容;调戏夸夸聊天机器人,请求夸、求赞;查询相似词,请输入: 相似词 词条
今天看啥  ›  专栏  ›  AINLP

DPO真比PPO更优吗?

AINLP  · 公众号  ·  · 2024-07-15 10:10

文章预览

本文是对论文(Is DPO Superior to PPO for LLM Alignment? A Comprehensive Study)的部分解析。因为找了几个知乎文章如 黄哲威 hzwer:[大模型 07] 相比 PPO ,DPO 还是个弟弟:Is DPO Superior to PPO for LLM Alignment? yearn:大模型对齐算法-DPO系列最新进展 看了不是很清楚,故对其中的 “PPO找到的策略为DPO找到的策略的真子集”这一结论进行简单的梳理。文章的背景是现在很多榜单会有很多都是通过DPO对齐的模型占据了前列,但实际上OpenAI、Anthropic等产出过ChatGPT、Claude等最牛的模型的公司都是在主张PPO,所以从理论和实际的角度,对“PPO优于DPO”这一结论做了说明。 第一部分 理论分析 背景公式: 一、PPO策略属于DPO策略 定义ΠPPO为ppo策略集合;ΠPPO为DPO策略集合,奖励模型在数据集D上得到,ppo和dpo同时用各自的方式去去优化RLHF。R为奖励的函数空间。 因为 minπ LDPO(π) = min ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览