专栏名称: 深度学习自然语言处理

一个从大三就接触NLP的小小NLPer，本公众号每天记录自己的一点一滴，每篇文章最后也有托福单词等新知识，学技术同时，也一点一滴积累额外的知识。期待与你在知识的殿堂与你相遇！

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

Deepseek R1 Zero成功复现, 三阶段RL，Response长度涨幅超50%，涌现语言混杂，double-check

深度学习自然语言处理 · 公众号 · · 2025-02-05 16:22

文章预览

知乎：涮月亮的谪仙人（已授权）链接：https://zhuanlan.zhihu.com/p/21290410831 编辑：「深度学习自然语言处理」公众号项目代码可见： Unakar/Logic-RL (https://github.com/Unakar/Logic-RL)，欢迎关注和star! 我们将开源完整的wandb曲线和训练日志， wandb report (https://wandb.ai/ustc_ai/GRPO_logic_KK/reports/GRPO-Zero--VmlldzoxMTIwOTYyNw?accessToken=gnbnl5mu5pwfww7gtwxymohg85w7d7vthvjvbl4w8yxg0a99vf1k22m11e61cvv8) 在大四的最后一个寒假，和@AdusTinexl @ShadeCloak 两个小伙伴捣鼓出了点有意思的东西，非常开心，欢迎各位合作，指导！先展示一下结果：基座模型Qwen 7B在测试集上只会基础的step by step逻辑。无 Long CoT冷启动蒸馏，三阶段Rule Based RL后（约400steps），模型学会了迟疑 (标记当前不确定的step等后续验证)，多路径探索 (Les't test both possibilities), 回溯之前的分析 (Analyze .. statement again)，阶段性总结（Le ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博