连接人工智能技术人才和产业人才的交流平台
今天看啥  ›  专栏  ›  机器学习研究组订阅

10美元成功复现DeepSeek顿悟时刻,3B模型爆发超强推理!微软论文反驳涌现

机器学习研究组订阅  · 公众号  · AI  · 2025-02-22 18:20
    

文章预览

复刻DeepSeek的神话,还在继续。 之前,UC伯克利的博士只用30美元,就复刻了DeepSeek中的顿悟时刻,震惊圈内。 这一次,来自荷兰阿姆斯特丹的研究人员Raz,再次打破纪录,把复刻成本降到了史上最低—— 只要10美元,就能复现DeepSeek顿悟时刻! Raz本人也表示,自己惊讶极了。 即使是一个非常简单的强化学习设置,并没有太多RL算法的复杂性(比如PPO、TRPO、GRPO等),也能在有限的计算资源下产生涌现的结果。 在具体设计过程中,他特别考虑强化学习中LLM中的应用和传统强化学习问题(如机器人、Atari游戏等)在状态空间和动作空间的不同。 因此,Raz选择从非常简单的RL算法——Reinforce-Lite入手。 采用轻量级强化学习算法——Reinforce-Lite生成的推理过程之一。我们将一步步看到,端到端的强化学习微调模型如何表现出智能、回溯、自我反思、逻辑推 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览