这里是AI领域学习交流的平台!分享人工智能、机器学习、深度学习、计算机视觉、自然语言处理、算法原理、科技前沿、行业动态等,为您提供最有价值的知识和资讯。
今天看啥  ›  专栏  ›  人工智能与算法学习

4500美元复刻DeepSeek神话,1.5B战胜o1-preview只用RL!训练细节全公开

人工智能与算法学习  · 公众号  ·  · 2025-02-12 15:01
    

文章预览

来源:新智元 【导读】 只用 4500美元成本,就能成功复现DeepSeek? 就在刚刚,UC伯克利团队只用简单的RL微调,就训出了DeepScaleR-1.5B-Preview,15亿参数模型直接吊打o1-preview,震撼业内。 强化学习迎来重大突破! 近日,来自UC伯克利的研究团队基于Deepseek-R1-Distilled-Qwen-1.5B,通过简单的强化学习(RL)微调,得到了全新的DeepScaleR-1.5B-Preview。 在AIME2024基准中,模型 的Pass@1准确率达高达43.1% ——不仅比基础模型提高了14.3%,而且在只有 1.5B参数的情况下超越了OpenAI o1-preview! 目前,研究团队已开源数据集、代码和训练日志。 只用不到5000美元的预算,团队就复现了DeepSeek的成功。至此,开源又赢下一局。 网友们称赞:当机器学习和数学相遇,就是超强组合的诞生! 训练秘籍简版:先短后长 1.5B模型,通过RL训练,就能超越o1-preview,进行数学推理? 简而言之 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览