如何用一个统一的视角，分析RLHF下的各种算法？

包包算法笔记 · 公众号 · · 2024-10-22 09:00

文章预览

写这篇文章的起因是，上周读了https://zhuanlan.zhihu.com/p/1082394115这篇知乎文章，文中探讨了关于DPO的局限性。在我之前写DPO的推导过程时（https://zhuanlan.zhihu.com/p/721073733），我就一直有一个主观感觉，rlhf算法的优化效果和客观世界的真值比起来，误差主要分布在【奖励函数误差】【prompt x】和【response y】上，其中我认为后两者是至关重要的（和数据集密切相关），他们也间接决定了【奖励函数的误差】。我认为诸如dpo这类off-policy的方法，和ppo这类on-policy的方法比较起来，误差也就在后两者上，相关的分析我回复在佬的评论区里。但是总觉得对自己目前的理解，还是不够尽兴，我想用一个更有逻辑的视角来看待这个问题。即我想先不考虑任何具体的优化算法，仅从rlhf最原始的优化目标出发，来分析这个目标下暗藏的前提，而探索这些前提的目的是： ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博