专栏名称: 深度学习与NLP
专注深度学习、NLP相关技术、资讯,追求纯粹的技术,享受学习、分享的快乐。
今天看啥  ›  专栏  ›  深度学习与NLP

理解大模型训练中的PRM(过程奖励模型)训练

深度学习与NLP  · 公众号  ·  · 2025-01-18 00:00
    

文章预览

  作者:姜富春 原文:https://zhuanlan.zhihu.com/p/14993645091 导语 LLM Post-Training过程中,会出现较多使用Reward Model的场景。那么LLM中Reward Model是什么?其实简单说就是按照人的偏好制定的一种奖励规则。比如在文创场景: • 场景1:创作的内容越丰富,越有层次的结果认为是好结果,奖励分会高,相反奖励分就低。 • 场景2:创作的内容越通俗易懂越好,奖励分高,越阳春白雪越差,奖励分越低 所以从上面的场景可以看出,Reward Model是按业务自定义的规则做的偏好打分,有比较强的主观性。 当前Reward Model 有两种主流的范式: • ORM(Outcome Reward Model): 在生成模型中,通常是对生成的结果整体做一个打分。 • PRM (Process Reward Model):在生成的过程,分步骤,对每一步进行打分,是更细粒度的奖励模型。在CloseAI推出O1之后,PRM逐渐成为业界研究的新宠 。 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览