Lilian Weng博客最新博客《强化学习Reward Hacking》

专知 · 公众号 · · 2024-12-03 20:17

文章预览

机器之心报道机器之心编辑部大约一个月前，OpenAI 安全系统团队负责人翁荔（Lilian Weng）在 X 上宣布了从已经工作了近 7 年的 OpenAI 离职的消息。当时，她就曾表示，之后可能有更多时间来写博客。刚刚，翁荔更新了一篇博客，迅速引起了大家的围观学习。这篇博客的主题是关于强化学习中 reward hacking 的。翁荔认为，「当强化学习智能体利用奖励函数或环境中的缺陷来最大化奖励而不学习预期行为时，就会发生 reward hacking 攻击。在我看来，这是在现实世界中部署更多自主 AI 模型用例时的主要障碍。」她还呼吁对 reward hacking，特别是对 LLM 和 RLHF 中 reward hacking 的缓解策略进行更多的研究。需要提示的是，这是一篇很长很干货的文章，翁荔在博客中给出的阅读预估时间是 37 分钟。为了方便国内读者更好地学习这篇内容，机器之心对此文章进行 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博