文章预览
OpenAI o1 和 o3 模型的发布证明了强化学习能够让大模型拥有像人一样的快速迭代试错、深度思考的高阶推理能力,在基于模仿学习的Scaling Law逐渐受到质疑的今天,基于探索的强化学习有望带来新的Scaling Law. 近日,清华大学 NLP 实验室联合上海AI Lab,清华大学电子系及OpenBMB 社区提出一种新的结合过程奖励的强化学习方法—— PRIME( Process Reinforcement through IMplicit REwards ) ,采用 PRIME 方法,研究人员不依赖任何蒸馏数据和模仿学习, 仅用8张A100,花费一万块钱左右,不到10天时间,就能高效训练出一个数学能力超过 GPT-4o、Llama-3.1-70B的 7B 模型 Eurus-2-7B-PRIME。 如遇添加困难,请+vx iamxxn886 利用 Qwen2.5-Math-7B-Base 作为基座模型,训练出了新模型 Eurus-2-7B-PRIME ,并在美国IMO选拔考试 AIME 2024 上的准确率达到 26.7%(如下图深蓝色部分),大幅超越 GPT-4o,Llama3.
………………………………