老婆饼里没有老婆，RLHF里也没有真正的RL

机器之心 · 公众号 · AI · 2025-01-08 17:39

主要观点总结

这篇文章讨论了基于人类反馈的强化学习（RLHF）和其他类似方法在为大型语言模型（LLM）带来真正的强化学习（RL）方面的局限性。文章指出，这些方法主要关注即时反馈，缺乏在动态环境中进行多步骤策略调整的能力，因此不能赋予LLM真正的目标或意图。文章还讨论了现有方法的局限性，以及未来可能的发展方向，包括更高的样本复杂度、扩展到长期任务和衔接符号与次符号方法。

关键观点总结

关键观点1: RLHF和其他类似方法的主要缺点

缺乏RL的核心特征，如持续的环境交互和长期目标的追求。主要是离线或半离线进行，缺乏实时的环境反馈和策略更新。不能赋予LLM真正的目标或意图，让它们‘想要’赢得游戏。LLM仍然是一个基于上下文预测下一个token的统计系统。

关键观点2: 为什么至今没有大规模地用「真正的RL」训练LLM

因为真正的RL需要稳定、交互式的环境，以及大量计算来运行重复的episode，这对于大规模的LLM来说过于昂贵。此外，文本生成并非天然的「状态-动作转换」环境，定义奖励结构也更为困难。

关键观点3: 最接近给LLM一个「目标」的现有方法

使用提示工程或将多个LLM提示串联成一个循环来构建一个元系统或「智能体」。然而，这些「目标」仍然是从外部协调的，LLM本身不会自发生成或坚持自己的目标。

关键观点4: LLM没有「真正目标」的后果

简化的对齐（在某些方面），更难以委派开放式任务，以及可能错过多步奖励优化所带来的全新策略。但也有积极的一面，例如更大的透明度。

关键观点5: 未来可能的发展方向

更高的样本复杂度、扩展到长期任务，以及衔接符号与次符号方法。同时，也可能引发新的安全和一致性问题。

文章预览

机器之心报道编辑：张倩老婆饼里没有老婆，夫妻肺片里没有夫妻，RLHF 里也没有真正的 RL。在最近的一篇博客中，德克萨斯大学奥斯汀分校助理教授 Atlas Wang 分享了这样一个观点。博客链接：https://www.linkedin.com/pulse/why-rlhf-other-rl-like-methods-dont-bring-true-rl-llmsand-atlas-wang-s1efc/ 他指出，RLHF（基于人类反馈的强化学习）和其他类似的方法并没有为大型语言模型（LLM）带来真正的强化学习（RL），因为它们缺乏 RL 的核心特征：持续的环境交互和长期目标的追求。 RLHF 主要通过单步或几步优化来调整模型输出，使其符合人类偏好，而不是在一个动态环境中进行多步骤的策略调整。此外，RLHF 通常是离线或半离线进行的，缺乏实时的环境反馈和策略更新。因此，尽管 RLHF 可以改善模型的对齐性和输出质量，但它并不能赋予 LLM 真正的目标或意图，让它们「想 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博