专栏名称: 斌叔OKmath
橙旭园CEO 教育博主 教育部双创优秀导师。前微软员工。橙旭园儿童编程创始人。
今天看啥  ›  专栏  ›  斌叔OKmath

Mini-R1:在 RL 教程中重现 Deepseek R1 的-20250204094420

斌叔OKmath  · 微博  ·  · 2025-02-04 09:44
    

文章预览

2025-02-04 09:44 本条微博链接 Mini-R1:在 RL 教程中重现 Deepseek R1 的“顿悟时刻”!使用群组相对策略优化 (GRPO) 重现 RL 的“顿悟时刻”,并使用强化学习训练开放模型,教会其自我验证和搜索能力,从而解决倒计时游戏。 网页链接 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览