专栏名称: 新智元

智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

10美元成功复现DeepSeek顿悟时刻，3B模型爆发超强推理！微软论文实锤涌现

新智元 · 公众号 · AI · 2025-02-22 13:01

文章预览

新智元报道编辑：Aeneas 好困【新智元导读】不到10美元，3B模型就能复刻DeepSeek的顿悟时刻了？来自荷兰的开发者采用轻量级的RL算法Reinforce-Lite，把复刻成本降到了史上最低！同时，微软亚研院的一项工作，也受DeepSeek-R1启发，让7B模型涌现出了高级推理技能。复刻DeepSeek的神话，还在继续。之前，UC伯克利的博士只用30美元，就复刻了DeepSeek中的顿悟时刻，震惊圈内。这一次，来自荷兰阿姆斯特丹的研究人员Raz，再次打破纪录，把复刻成本降到了史上最低—— 只要10美元，就能复现DeepSeek顿悟时刻！ Raz本人也表示，自己惊讶极了。即使是一个非常简单的强化学习设置，并没有太多RL算法的复杂性（比如PPO、TRPO、GRPO等），也能在有限的计算资源下产生涌现的结果。在具体设计过程中，他特别考虑强化学习中LLM中的应用和传统强化学习问题 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

爱可可-爱生活 · 大模型还是小模型？AI部署的困境与突破查看图片-20250222080026

20 小时前

新智元 · 杭州95后学霸坐C位，Grok 3登顶App Store！Hinton高徒、多伦多华人博士领衔

昨天

量子位 · 断交OpenAI后，人形机器人独角兽首秀：一个神经网络控制整个上身，能听懂人话可抓万物

2 天前

量子位 · 谷歌豪华阵容打造AI科学家，用测试时间计算加速科学发现，CEO皮猜也来站台了

2 天前

机器之心 · 撞车DeepSeek NSA，Kimi杨植麟署名的新注意力架构MoBA发布，代码也公开

3 天前

中州私友会 · 【玉米周报】玉米：关注农户售粮节奏，短期保持观望为主

5 月前