文章预览
知乎 :涮月亮的谪仙人(已授权) 链接 :https://zhuanlan.zhihu.com/p/21290410831 编辑 :「深度学习自然语言处理」公众号 项目代码可见: Unakar/Logic-RL (https://github.com/Unakar/Logic-RL),欢迎关注和star! 我们将开源完整的wandb曲线和训练日志, wandb report (https://wandb.ai/ustc_ai/GRPO_logic_KK/reports/GRPO-Zero--VmlldzoxMTIwOTYyNw?accessToken=gnbnl5mu5pwfww7gtwxymohg85w7d7vthvjvbl4w8yxg0a99vf1k22m11e61cvv8) 在大四的最后一个寒假,和@AdusTinexl @ShadeCloak 两个小伙伴捣鼓出了点有意思的东西,非常开心,欢迎各位合作,指导! 先展示一下结果: 基座模型Qwen 7B在测试集上只会基础的step by step逻辑。 无 Long CoT冷启动蒸馏,三阶段Rule Based RL后 (约400steps),模型学会了 迟疑 (标记当前不确定的step等后续验证), 多路径探索 (Les't test both possibilities), 回溯之前的分析 (Analyze .. statement again), 阶段性总结 (Le
………………………………