文章预览
X-R1开源仓库 :https://github.com/dhcode-cpp/X-R1 1. 介绍 X-R1 目标是建设一个易入门和低成本的基于强化学习的训练框架。以加快Scaling Post-Training的发展进程。 受到 DeepSeek-R1 和 open-r1 的启发,为了降低 R1 的复现门槛,我们用最低的成本 < 50元 在 0.5B 的预训练模型上复现了 R1-Zero 的“Aha Moment”(顿悟时刻)💡 2. X-R1 特点 项目的代码基础为 open-r1 ,由于官方例子需要 8x80G显卡,我们探索了一条更易训练的方案。 X-R1 聚焦于纯Reasoning-RL的端到端训练问题,不考虑做任何的继续预训练、指令微调和数据蒸馏操作。 效果:4x3090/4090 GPUs 训练总时间2小时以内,在第10分钟的 37步优化中输出了“aha Moment“ 💡 模型大小:0.5B尺寸的模型即可做R1-Zero 支持更大模型的配置:0.5B/1.5B/7B/32B... 为了更快训练,我们减少数据规模到750条数据,仍然能够提升数学推理能力
………………………………