Eurus-2-7B：8张显卡+一万块钱，训练一个超越 GPT-4o的7B模型！

大语言模型论文跟踪 · 公众号 · · 2025-01-07 08:08

文章预览

OpenAI o1 和 o3 模型的发布证明了强化学习能够让大模型拥有像人一样的快速迭代试错、深度思考的高阶推理能力，在基于模仿学习的Scaling Law逐渐受到质疑的今天，基于探索的强化学习有望带来新的Scaling Law. 近日，清华大学 NLP 实验室联合上海AI Lab，清华大学电子系及OpenBMB 社区提出一种新的结合过程奖励的强化学习方法—— PRIME（ Process Reinforcement through IMplicit REwards ），采用 PRIME 方法，研究人员不依赖任何蒸馏数据和模仿学习，仅用8张A100，花费一万块钱左右，不到10天时间，就能高效训练出一个数学能力超过 GPT-4o、Llama-3.1-70B的 7B 模型 Eurus-2-7B-PRIME。如遇添加困难，请+vx iamxxn886 利用 Qwen2.5-Math-7B-Base 作为基座模型，训练出了新模型 Eurus-2-7B-PRIME ，并在美国IMO选拔考试 AIME 2024 上的准确率达到 26.7%(如下图深蓝色部分），大幅超越 GPT-4o，Llama3. ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

长城新媒体 · 创意视频丨蛇蛇很忙

昨天

Vogue Business · Max Mara X 抖音商城上新大秀，销售破千万带来哪些启示？

2 天前

Vogue Business · Max Mara X 抖音商城上新大秀，销售破千万带来哪些启示？

2 天前

新腕儿 · 抖音副总裁李亮谈短剧：应尊重老年人娱乐权利，精品是必经之路

3 天前

新腕儿 · 抖音副总裁李亮谈短剧：应尊重老年人娱乐权利，精品是必经之路

3 天前

文明湖北 · 快来晒一晒！

3 天前

顶端新闻 · 年度盘点！2024顶端新闻年度影响力政务号公布

3 天前

最搞笑笑话王 · 帅小伙娶妻子，父母坚决不同意，妻子一上场，全场都愣了!

8 月前

东南大学 · 东大这位“斜杠教师”，竟沉醉于编中国结？

6 月前

AIGC开放社区 · OpenAI放王炸，Sora无限使用！3大新功能，2024最大惊喜！

1 月前

AIGC开放社区 · OpenAI放王炸，Sora无限使用！3大新功能，2024最大惊喜！

1 月前