文章预览
↑ 点击 蓝字 关注极市平台 作者丨涮月亮的谪仙人 来源丨https://zhuanlan.zhihu.com/p/21290410831 编辑丨极市平台 极市导读 Deepseek R1 Zero模型通过三阶段强化学习(RL)成功复现的过程记录,模型在测试集上的准确率从0.2提升到0.41,输出长度增长超过50%,并涌现出多语言混杂、迟疑、多路径探索等能力,展示了强化学习在提升模型性能和推理能力方面的潜力。 >> 加入极市CV技术交流群,走在计算机视觉的最前沿 项目代码可见:Unakar/Logic-RL(https://github.com/Unakar/Logic-RL),欢迎关注和star! 我们将开源完整的wandb曲线和训练日志,wandb report(https://wandb.ai/ustc_ai/GRPO_logic_KK/reports/GRPO-Zero--VmlldzoxMTIwOTYyNw?accessToken=gnbnl5mu5pwfww7gtwxymohg85w7d7vthvjvbl4w8yxg0a99vf1k22m11e61cvv8) 在大四的最后一个寒假,和@AdusTinexl @ShadeCloak 两个小伙伴捣鼓出了点有意思的东西,非常开心,欢迎各
………………………………