专栏名称: AINLP

关注AI、NLP相关技术，关注算法研发职位和课程；回复"文章"获取历史信息；双语聊天机器人"无名"；中英翻译请输入：翻译翻译内容；自动对联，请输入：上联上联内容；调戏夸夸聊天机器人，请求夸、求赞；查询相似词，请输入: 相似词词条

我也要提交微信公众号

今天看啥

公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词RSS订阅方法

知网期刊RSS订阅方法

即刻RSS订阅方法

DPO真比PPO更优吗？

AINLP · 公众号 · · 2024-07-15 10:10

文章预览

本文是对论文（Is DPO Superior to PPO for LLM Alignment? A Comprehensive Study）的部分解析。因为找了几个知乎文章如黄哲威 hzwer：[大模型 07] 相比 PPO ，DPO 还是个弟弟：Is DPO Superior to PPO for LLM Alignment? yearn：大模型对齐算法-DPO系列最新进展看了不是很清楚，故对其中的 “PPO找到的策略为DPO找到的策略的真子集”这一结论进行简单的梳理。文章的背景是现在很多榜单会有很多都是通过DPO对齐的模型占据了前列，但实际上OpenAI、Anthropic等产出过ChatGPT、Claude等最牛的模型的公司都是在主张PPO，所以从理论和实际的角度，对“PPO优于DPO”这一结论做了说明。第一部分理论分析背景公式：一、PPO策略属于DPO策略定义ΠPPO为ppo策略集合；ΠPPO为DPO策略集合，奖励模型在数据集D上得到，ppo和dpo同时用各自的方式去去优化RLHF。R为奖励的函数空间。因为 minπ LDPO(π) = min ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博