文章预览
老婆饼里没有老婆,夫妻肺片里没有夫妻,RLHF 里也没有真正的 RL。在最近的一篇博客中,德克萨斯大学奥斯汀分校副教授 Atlas Wang 分享了这样一个观点。 博客链接:https://www.linkedin.com/pulse/why-rlhf-other-rl-like-methods-dont-bring-true-rl-llmsand-atlas-wang-s1efc/ 他指出,RLHF(基于人类反馈的强化学习)和其他类似的方法并没有为大型语言模型(LLM)带来真正的强化学习(RL),因为它们缺乏 RL 的核心特征:持续的环境交互和长期目标的追求。 RLHF 主要通过单步或几步优化来调整模型输出,使其符合人类偏好,而不是在一个动态环境中进行多步骤的策略调整。此外,RLHF 通常是离线或半离线进行的,缺乏实时的环境反馈和策略更新。因此,尽管 RLHF 可以改善模型的对齐性和输出质量,但它并不能赋予 LLM 真正的目标或意图,让它们「想要」赢得游戏。LLM 仍然主要
………………………………