专栏名称: 新智元
智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
目录
今天看啥  ›  专栏  ›  新智元

离职OpenAI后Lilian Weng博客首发!深扒RL训练漏洞,业内狂赞

新智元  · 公众号  · AI  · 2024-12-06 05:43
    

文章预览

   新智元报道   编辑:静音 泽正 【新智元导读】 Lilian Weng离职OpenAI后首篇博客发布!文章深入讨论了大模型强化学习中的奖励欺骗问题。随着语言模型在许多任务上的泛化能力不断提升,以及RLHF逐渐成为对齐训练的默认方法,奖励欺骗在语言模型的RL训练中已经成为一个关键的实践性难题。 上个月刚刚离开OpenAI的Lilian Weng,发布了离职后的首篇博客! 在当时的离职信里,她承诺将付出更多的时间来更新博客。 果不其然,感恩节假期刚刚结束,她的博客马上就营业了,更新了一篇关于奖励欺骗问题的文章。 谷歌DeepMind高级员工RS Shane Gu评论道「Great writing!」,还给了一个引用论文的小建议。 伯克利的AI博士生Micah Carroll也赞道「Great blogpost!」,顺便还介绍了一下他们最近的奖励欺骗研究。 那么,什么是奖励欺骗呢? 奖励欺骗(Reward Hacking)是指 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览