一个从大三就接触NLP的小小NLPer,本公众号每天记录自己的一点一滴,每篇文章最后也有托福单词等新知识,学技术同时,也一点一滴积累额外的知识。期待与你在知识的殿堂与你相遇!
今天看啥  ›  专栏  ›  深度学习自然语言处理

Deepseek R1 Zero成功复现, 三阶段RL,Response长度涨幅超50%,涌现语言混杂,double-check

深度学习自然语言处理  · 公众号  ·  · 2025-02-05 16:22
    

文章预览

知乎 :涮月亮的谪仙人(已授权) 链接 :https://zhuanlan.zhihu.com/p/21290410831 编辑 :「深度学习自然语言处理」公众号 项目代码可见: Unakar/Logic-RL (https://github.com/Unakar/Logic-RL),欢迎关注和star! 我们将开源完整的wandb曲线和训练日志, wandb report (https://wandb.ai/ustc_ai/GRPO_logic_KK/reports/GRPO-Zero--VmlldzoxMTIwOTYyNw?accessToken=gnbnl5mu5pwfww7gtwxymohg85w7d7vthvjvbl4w8yxg0a99vf1k22m11e61cvv8) 在大四的最后一个寒假,和@AdusTinexl @ShadeCloak 两个小伙伴捣鼓出了点有意思的东西,非常开心,欢迎各位合作,指导! 先展示一下结果: 基座模型Qwen 7B在测试集上只会基础的step by step逻辑。 无 Long CoT冷启动蒸馏,三阶段Rule Based RL后 (约400steps),模型学会了 迟疑 (标记当前不确定的step等后续验证), 多路径探索 (Les't test both possibilities), 回溯之前的分析 (Analyze .. statement again), 阶段性总结 (Le ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览