专栏名称: PaperWeekly
PaperWeekly是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台,致力于让国内外优秀科研工作得到更为广泛的传播和认可。社区:http://paperweek.ly | 微博:@PaperWeekly
目录
相关文章推荐
PaperWeekly  ·  上海内推 | ... ·  昨天  
PaperWeekly  ·  ICLR 2025 | ... ·  昨天  
今天看啥  ›  专栏  ›  PaperWeekly

0.5B小模型逆袭!不到50元,「X-R1」让每个人都能复现Aha Moment

PaperWeekly  · 公众号  · 科研  · 2025-02-13 09:01
    

文章预览

X-R1开源仓库 :https://github.com/dhcode-cpp/X-R1 1. 介绍 X-R1 目标是建设一个易入门和低成本的基于强化学习的训练框架。以加快Scaling Post-Training的发展进程。 受到  DeepSeek-R1  和  open-r1  的启发,为了降低 R1 的复现门槛,我们用最低的成本 < 50元 在 0.5B 的预训练模型上复现了 R1-Zero 的“Aha Moment”(顿悟时刻)💡 2. X-R1 特点 项目的代码基础为  open-r1  ,由于官方例子需要 8x80G显卡,我们探索了一条更易训练的方案。 X-R1 聚焦于纯Reasoning-RL的端到端训练问题,不考虑做任何的继续预训练、指令微调和数据蒸馏操作。 效果:4x3090/4090 GPUs 训练总时间2小时以内,在第10分钟的 37步优化中输出了“aha Moment“ 💡 模型大小:0.5B尺寸的模型即可做R1-Zero 支持更大模型的配置:0.5B/1.5B/7B/32B... 为了更快训练,我们减少数据规模到750条数据,仍然能够提升数学推理能力 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览