讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战
今天看啥  ›  专栏  ›  大语言模型和具身智体及自动驾驶

PRIME:通过隐式奖励进行过程强化

大语言模型和具身智体及自动驾驶  · 公众号  ·  · 2025-01-30 00:03
    

文章预览

25年1月来自清华大学的工作报告 “Process Reinforcement through Implicit Rewards”。 之前作者提出隐式 PRM,即无需进程标签即可获得免费进程奖励。基于此,本文提出  PRIME (通过隐式奖励进行过程强化),一种具有过程奖励的在线 RL 开源解决方案,旨在提高语言模型的推理能力,使其超越模仿或提炼。借助 PRIME,从 Qwen2.5-Math-7B-Base 开始,训练的模型 Eurus-2-7B-PRIME 在 AIME 2024 上实现了 26.7% 的 pass@1,超越 GPT-4o 和 Qwen2.5-Math-7B-Instruct。仅使用 Qwen Math 的 1/10 数据(230K SFT + 150K RL)就实现了这一目标。还探索推理时间规模化并训练 EurusPRM,这是一个SOTA 级数学 PRM,它进一步突破界限。 虽然大语言模型 (LLM) 的高级推理可以通过数据驱动的模仿来改进,但它会造成根本性的规模化障碍 - 因为更好的推理需要成倍增加的高质量示例来模仿,这使得持续改进变得越来 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览