专栏名称: 机器之心
专业的人工智能媒体和产业服务平台
今天看啥  ›  专栏  ›  机器之心

为什么明明很准,奖励模型就是不work?新研究:准确度 is not all you need

机器之心  · 公众号  · AI  · 2025-03-24 12:34
    

文章预览

机器之心报道 编辑:张倩、Panda 训练狗时不仅要让它知对错,还要给予差异较大的、不同的奖励诱导,设计 RLHF 的奖励模型时也是一样。 我们知道,一个 RLHF 算法是否成功的一大关键在于其奖励模型(RM)的质量。但是,我们应该如何衡量 RM 的质量呢?近日,普林斯顿大学一个研究团队发现,如果仅用准确度来衡量 RM 的质量,可能无法完全体现一个奖励模型作为有效教师的特性。为此,他们选择了从优化角度来研究这个问题。 论文标题:What Makes a Reward Model a Good Teacher? An Optimization Perspective 论文链接:https://arxiv.org/pdf/2503.15477 在这篇论文中,他们证明:无论奖励模型有多准确,如果它会导致奖励方差较低,那么 RLHF 目标优化起来就会比较缓慢。即使是完全准确的奖励模型也会导致优化速度极其缓慢,性能表现赶不上会导致奖励方差较高但准确度 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览