文章预览
24年2月来自北京大学、DeepSeek-AI、香港大学、清华大学和俄亥俄州立大学的论文“Math-Shepherd: Verify And Reinforce LLMs Step-by-step Without Human Annotations”。 本文提出一种面向过程的数学过程奖励模型 MATH-SHEPHERD,该模型为数学问题解决的每一步分配一个奖励分数。MATH-SHEPHERD 的训练,是使用自动构建的过程监督数据实现的,突破了现有工作中严重依赖人工注释的瓶颈。从两个场景探索 MATH-SHEPHERD 的有效性:1)验证:MATH-SHEPHERD 用于对大语言模型 (LLM) 生成的多个输出进行重新排序;2)强化学习:MATH-SHEPHERD 用于通过逐步的近端策略优化 (PPO) 来强化 LLM。借助 MATH-SHEPHERD,一系列开源 LLM 表现出色。例如,使用MATH-SHEPHERD的逐步PPO显著提高了Mistral-7B的准确率(GSM8K上77.9%→84.1%,MATH上28.6%→33.0%)。经过MATH-SHEPHERD的验证,准确率在GSM8K和MATH上分别可进一步提高到89.1%
………………………………