用通俗的语言普及最新LLM进展! 欢迎大家推荐论文!
今天看啥  ›  专栏  ›  大语言模型论文跟踪

Eurus-2-7B:8张显卡+一万块钱,训练一个超越 GPT-4o的7B模型!

大语言模型论文跟踪  · 公众号  ·  · 2025-01-07 08:08
    

文章预览

OpenAI o1 和 o3 模型的发布证明了强化学习能够让大模型拥有像人一样的快速迭代试错、深度思考的高阶推理能力,在基于模仿学习的Scaling Law逐渐受到质疑的今天,基于探索的强化学习有望带来新的Scaling Law. 近日,清华大学 NLP 实验室联合上海AI Lab,清华大学电子系及OpenBMB 社区提出一种新的结合过程奖励的强化学习方法—— PRIME( Process Reinforcement through IMplicit REwards ) ,采用 PRIME 方法,研究人员不依赖任何蒸馏数据和模仿学习, 仅用8张A100,花费一万块钱左右,不到10天时间,就能高效训练出一个数学能力超过 GPT-4o、Llama-3.1-70B的 7B 模型 Eurus-2-7B-PRIME。 如遇添加困难,请+vx iamxxn886 利用 Qwen2.5-Math-7B-Base 作为基座模型,训练出了新模型 Eurus-2-7B-PRIME ,并在美国IMO选拔考试 AIME 2024 上的准确率达到 26.7%(如下图深蓝色部分),大幅超越 GPT-4o,Llama3. ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览