专栏名称: 新智元
智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
今天看啥  ›  专栏  ›  新智元

10美元成功复现DeepSeek顿悟时刻,3B模型爆发超强推理!微软论文实锤涌现

新智元  · 公众号  · AI  · 2025-02-22 13:01
    

文章预览

   新智元报道   编辑:Aeneas 好困 【新智元导读】 不到10美元,3B模型就能复刻DeepSeek的顿悟时刻了?来自荷兰的开发者采用轻量级的RL算法Reinforce-Lite,把复刻成本降到了史上最低!同时,微软亚研院的一项工作,也受DeepSeek-R1启发,让7B模型涌现出了高级推理技能。 复刻DeepSeek的神话,还在继续。 之前,UC伯克利的博士只用30美元,就复刻了DeepSeek中的顿悟时刻,震惊圈内。 这一次,来自荷兰阿姆斯特丹的研究人员Raz,再次打破纪录,把复刻成本降到了史上最低—— 只要10美元,就能复现DeepSeek顿悟时刻! Raz本人也表示,自己惊讶极了。 即使是一个非常简单的强化学习设置,并没有太多RL算法的复杂性(比如PPO、TRPO、GRPO等),也能在有限的计算资源下产生涌现的结果。 在具体设计过程中,他特别考虑强化学习中LLM中的应用和传统强化学习问题 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览