翁荔离职OpenAI后第一个动作：万字长文探讨RLHF的漏洞，网友们抢着传看

arXiv每日学术速递 · 公众号 · · 2024-12-03 14:11

文章预览

梦晨西风发自凹非寺转载 | 量子位 | 公众号 QbitAI 之前领导OpenAI安全团队的北大校友翁荔（Lilian Weng），离职后第一个动作来了。当然是发～博～客。前脚刚发出来，后脚就被大伙儿齐刷刷码住，评论区一堆人排队加待读清单。还有不少OpenAI前同事转发推荐。这次的博客一如既往万字干货，妥妥一篇研究综述，翁荔本人直言写起来不容易。主题围绕强化学习中奖励黑客（Reward Hacking）问题展开，即Agent利用奖励函数或环境中的漏洞来获取高奖励，而并未真正学习到预期行为。她强调奖励黑客行为在大模型的RLHF训练中的潜在影响，并呼吁更多研究关注理解和缓解这一问题。在我看来，这是现实世界部署更多自主AI模型应用的主要障碍。尝试定义Reward Hacking 传统概念强化学习中，Agent利用奖励函数中的缺陷或模糊性来获得高额奖励，而没有真 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

FM93交通之声 · 从天而降! 女子家中扫地，突然踩穿地板掉到楼下邻居家! 罪魁祸首…

9 小时前

内蒙古自治区文化和旅游厅 · 攻略 | 通辽市：从西辽河起步点亮文明曙光

昨天

内蒙古自治区文化和旅游厅 · 攻略 | 通辽市：从西辽河起步点亮文明曙光

昨天

杭州交通918 · 绝望！郭艾伦突发！“瞎了我就不活了”

昨天

钱江晚报 · 18岁少女胃里取出整整2斤！持续6年，根本控制不住

昨天

杭州日报 · 刚刚！琼瑶微博更新

3 天前

太星小升初 · 53 | 提前看！参加2025年燕山地区小升初，可以选择哪些入学途径？

7 月前

化学加 · 最近的1年，全球化工50强业绩变化有多大？

5 月前