斯坦福最新理论研究：RLHF中奖励过度优化现象也存在Scaling Laws

大数据文摘 · 公众号 · 大数据 · 2024-09-10 08:01

文章预览

大数据文摘授权转载自将门创投作者：seven_ 可以说，人类反馈强化学习 (RLHF) 是一把解锁大型语言模型(LLMs)涌现能力的金钥匙。它使拥有庞大参数规模的语言模型可以快速对齐到人类用户定义的偏好空间中。然而，先前的RLHF算法通常是一个复杂而脆弱的过程。在经典的 RLHF 框架中，我们首先需要训练一个奖励模型来表示人类偏好，然后再通过在线强化学习 (online RL) 算法使用该模型来优化LLM。此类方法的突出问题是奖励过度优化现象（reward over-optimization）和奖励攻击（reward hacking）难题，虽然通过RL学习，奖励模型对LLM评估得到的性能会增加，但部署到实际场景中，性能会停滞甚至会下降。后来，有研究者提出直接对齐算法（Direct Alignment Algorithms，DAAs）来绕过奖励建模阶段，以缓解上述现象。目前，DDA已经成为经典 RLHF pipeline的替代方案，但DAA是 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博