专栏名称: 包包算法笔记
数据挖掘、机器学习、深度学习、Kaggle竞赛分享与交流。
今天看啥  ›  专栏  ›  包包算法笔记

PPO vs DPO 对齐擂台的武林纷争

包包算法笔记  · 公众号  ·  · 2024-05-30 10:01
    

文章预览

写在前面 今天给大家带来一篇Reinforcement Learning from Human Feedback的全家桶,来自知乎@何枝(已授权)。 随着 Llama3 的开源,人们对 Alignment 的重视程度又上一个阶梯。作为 Alignment 家族中的核中核,RLHF 家族也开始变的繁荣昌盛,这对各位 RLer 来说可真是喜闻乐见。今天我们就一起来俯瞰一下当下 RLHF 都有些什么奇巧的魔改思路。 如今,LLM 中主流 RLHF 方向分为两大路线: 以 PPO 为代表的 On Policy 路线 以 DPO 为代表的 Off Policy 路线 PPO: https://arxiv.org/pdf/1707.06347 DPO: https://arxiv.org/pdf/2305.18290 那究竟什么是 On Policy,什么是 Off Policy 呢? 我们可以简单理解为: 凡是需要 LLM 在训练过程中做 generation 的方法就是 On Policy,反之为 Off Policy。 我们通常会说 On Policy 的方法会更耗卡、训练更耗时,这里的「耗时」主要就体现在模型做「生成」上。 想想看,我们做 SF ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览