理解大模型训练中的PRM(过程奖励模型)训练

深度学习与NLP · 公众号 · · 2025-01-18 00:00

文章预览

作者：姜富春原文：https://zhuanlan.zhihu.com/p/14993645091 导语 LLM Post-Training过程中，会出现较多使用Reward Model的场景。那么LLM中Reward Model是什么？其实简单说就是按照人的偏好制定的一种奖励规则。比如在文创场景： • 场景1：创作的内容越丰富，越有层次的结果认为是好结果，奖励分会高，相反奖励分就低。 • 场景2：创作的内容越通俗易懂越好，奖励分高，越阳春白雪越差，奖励分越低所以从上面的场景可以看出，Reward Model是按业务自定义的规则做的偏好打分，有比较强的主观性。当前Reward Model 有两种主流的范式： • ORM（Outcome Reward Model）: 在生成模型中，通常是对生成的结果整体做一个打分。 • PRM （Process Reward Model）：在生成的过程，分步骤，对每一步进行打分，是更细粒度的奖励模型。在CloseAI推出O1之后，PRM逐渐成为业界研究的新宠。 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

人民日报 · 地铁突发！全程17分钟！

8 小时前

人民日报 · 大学生开钟点房洗衣服，被吐槽“薅羊毛”，酒店这样回应……

昨天

人民日报 · 【夜读】一个人的底气，藏在读过的书里

2 天前

江南晚报 · 已报警！张凌赫最新发声！

2 天前

上观新闻 · 上海市政府发布一组人事任免信息

3 天前

上观新闻 · 上海市政府发布一组人事任免信息

3 天前

正商阅读 · 央行：继续暂停！

6 月前

生信宝典 · iMeta | 山一大李乐平/种微识别胃癌铜死亡特征相关分子亚型

1 月前

直播海南 · 韩国突发车辆冲击人群事件！伤亡不明

3 周前

囧囧搞笑笑话 · 闺蜜私底下是怎么讨论男人的？淦，截图流出后…

2 周前