10美元成功复现DeepSeek顿悟时刻，3B模型爆发超强推理！微软论文反驳涌现

机器学习研究组订阅 · 公众号 · AI · 2025-02-22 18:20

文章预览

复刻DeepSeek的神话，还在继续。之前，UC伯克利的博士只用30美元，就复刻了DeepSeek中的顿悟时刻，震惊圈内。这一次，来自荷兰阿姆斯特丹的研究人员Raz，再次打破纪录，把复刻成本降到了史上最低—— 只要10美元，就能复现DeepSeek顿悟时刻！ Raz本人也表示，自己惊讶极了。即使是一个非常简单的强化学习设置，并没有太多RL算法的复杂性（比如PPO、TRPO、GRPO等），也能在有限的计算资源下产生涌现的结果。在具体设计过程中，他特别考虑强化学习中LLM中的应用和传统强化学习问题（如机器人、Atari游戏等）在状态空间和动作空间的不同。因此，Raz选择从非常简单的RL算法——Reinforce-Lite入手。采用轻量级强化学习算法——Reinforce-Lite生成的推理过程之一。我们将一步步看到，端到端的强化学习微调模型如何表现出智能、回溯、自我反思、逻辑推 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博