4500美元复刻DeepSeek神话，1.5B战胜o1-preview只用RL！训练细节全公开

人工智能与算法学习 · 公众号 · · 2025-02-12 15:01

文章预览

来源：新智元【导读】只用 4500美元成本，就能成功复现DeepSeek？就在刚刚，UC伯克利团队只用简单的RL微调，就训出了DeepScaleR-1.5B-Preview，15亿参数模型直接吊打o1-preview，震撼业内。强化学习迎来重大突破！近日，来自UC伯克利的研究团队基于Deepseek-R1-Distilled-Qwen-1.5B，通过简单的强化学习（RL）微调，得到了全新的DeepScaleR-1.5B-Preview。在AIME2024基准中，模型的Pass@1准确率达高达43.1% ——不仅比基础模型提高了14.3%，而且在只有 1.5B参数的情况下超越了OpenAI o1-preview！目前，研究团队已开源数据集、代码和训练日志。只用不到5000美元的预算，团队就复现了DeepSeek的成功。至此，开源又赢下一局。网友们称赞：当机器学习和数学相遇，就是超强组合的诞生！训练秘籍简版：先短后长 1.5B模型，通过RL训练，就能超越o1-preview，进行数学推理？简而言之 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

国际金融报 · 围猎英特尔

14 小时前

中金点睛 · 中金：1Q25排产淡季不淡，布局锂电正当时

昨天

飞哥带你看市场 · 维持高位震荡等方向

2 天前

飞哥带你看市场 · 维持高位震荡等方向

2 天前

现代快报 · 好消息！这笔钱，涨了

3 天前

现代快报 · 好消息！这笔钱，涨了

3 天前

中金点睛 · 中金 | 锑：供需改善有望推动内外盘价差收窄，国内锑价上涨启动

3 天前

小学数学 · 奥数课堂：分数比较大小-基准数

8 月前

星话大白 · 7月11日股市分析（大白话杂谈）

7 月前

财新 · 头部理财子公司掌舵人补位王洪栋履新信银理财

4 月前

芋道源码 · 中国永远不会倒闭的四个行业

2 月前