主要观点总结
这篇文章讨论了基于人类反馈的强化学习(RLHF)和其他类似方法在为大型语言模型(LLM)带来真正的强化学习(RL)方面的局限性。文章指出,这些方法主要关注即时反馈,缺乏在动态环境中进行多步骤策略调整的能力,因此不能赋予LLM真正的目标或意图。文章还讨论了现有方法的局限性,以及未来可能的发展方向,包括更高的样本复杂度、扩展到长期任务和衔接符号与次符号方法。
关键观点总结
关键观点1: RLHF和其他类似方法的主要缺点
缺乏RL的核心特征,如持续的环境交互和长期目标的追求。主要是离线或半离线进行,缺乏实时的环境反馈和策略更新。不能赋予LLM真正的目标或意图,让它们‘想要’赢得游戏。LLM仍然是一个基于上下文预测下一个token的统计系统。
关键观点2: 为什么至今没有大规模地用「真正的RL」训练LLM
因为真正的RL需要稳定、交互式的环境,以及大量计算来运行重复的episode,这对于大规模的LLM来说过于昂贵。此外,文本生成并非天然的「状态-动作转换」环境,定义奖励结构也更为困难。
关键观点3: 最接近给LLM一个「目标」的现有方法
使用提示工程或将多个LLM提示串联成一个循环来构建一个元系统或「智能体」。然而,这些「目标」仍然是从外部协调的,LLM本身不会自发生成或坚持自己的目标。
关键观点4: LLM没有「真正目标」的后果
简化的对齐(在某些方面),更难以委派开放式任务,以及可能错过多步奖励优化所带来的全新策略。但也有积极的一面,例如更大的透明度。
关键观点5: 未来可能的发展方向
更高的样本复杂度、扩展到长期任务,以及衔接符号与次符号方法。同时,也可能引发新的安全和一致性问题。
文章预览
机器之心报道 编辑:张倩 老婆饼里没有老婆,夫妻肺片里没有夫妻,RLHF 里也没有真正的 RL。在最近的一篇博客中,德克萨斯大学奥斯汀分校助理教授 Atlas Wang 分享了这样一个观点。 博客链接:https://www.linkedin.com/pulse/why-rlhf-other-rl-like-methods-dont-bring-true-rl-llmsand-atlas-wang-s1efc/ 他指出,RLHF(基于人类反馈的强化学习)和其他类似的方法并没有为大型语言模型(LLM)带来真正的强化学习(RL),因为它们缺乏 RL 的核心特征:持续的环境交互和长期目标的追求。 RLHF 主要通过单步或几步优化来调整模型输出,使其符合人类偏好,而不是在一个动态环境中进行多步骤的策略调整。此外,RLHF 通常是离线或半离线进行的,缺乏实时的环境反馈和策略更新。因此,尽管 RLHF 可以改善模型的对齐性和输出质量,但它并不能赋予 LLM 真正的目标或意图,让它们「想
………………………………