专栏名称: 新智元

智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

离职OpenAI后Lilian Weng博客首发！深扒RL训练漏洞，业内狂赞

新智元 · 公众号 · AI · 2024-12-06 05:43

文章预览

新智元报道编辑：静音泽正【新智元导读】 Lilian Weng离职OpenAI后首篇博客发布！文章深入讨论了大模型强化学习中的奖励欺骗问题。随着语言模型在许多任务上的泛化能力不断提升，以及RLHF逐渐成为对齐训练的默认方法，奖励欺骗在语言模型的RL训练中已经成为一个关键的实践性难题。上个月刚刚离开OpenAI的Lilian Weng，发布了离职后的首篇博客！在当时的离职信里，她承诺将付出更多的时间来更新博客。果不其然，感恩节假期刚刚结束，她的博客马上就营业了，更新了一篇关于奖励欺骗问题的文章。谷歌DeepMind高级员工RS Shane Gu评论道「Great writing!」，还给了一个引用论文的小建议。伯克利的AI博士生Micah Carroll也赞道「Great blogpost!」，顺便还介绍了一下他们最近的奖励欺骗研究。那么，什么是奖励欺骗呢？奖励欺骗（Reward Hacking）是指 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博