文章预览
梦晨 西风 发自 凹非寺 转载 | 量子位 | 公众号 QbitAI 之前领导OpenAI安全团队的北大校友 翁荔 (Lilian Weng) ,离职后第一个动作来了。 当然是发~博~客。 前脚刚发出来,后脚就被大伙儿齐刷刷码住,评论区一堆人排队加待读清单。 还有不少OpenAI前同事转发推荐。 这次的博客一如既往万字干货,妥妥一篇研究综述,翁荔本人直言写起来不容易。 主题围绕强化学习中 奖励黑客 (Reward Hacking) 问题展开,即Agent利用奖励函数或环境中的漏洞来获取高奖励,而并未真正学习到预期行为。 她强调奖励黑客行为在大模型的RLHF训练中的潜在影响,并呼吁更多研究关注理解和缓解这一问题。 在我看来,这是现实世界部署更多自主AI模型应用的主要障碍。 尝试定义Reward Hacking 传统概念强化学习中,Agent利用奖励函数中的缺陷或模糊性来获得高额奖励,而没有真
………………………………