专栏名称: AI产品阿颖
关注分布式相关的开源项目和基础架构,致力于分析并报道这些新技术是如何以及将会怎样影响企业的软件构建方式。
今天看啥  ›  专栏  ›  AI产品阿颖

李飞飞团队50美元训练出DeepSeek R1?

AI产品阿颖  · 公众号  ·  · 2025-02-06 22:39
    

文章预览

今天下午简直被这条新闻刷屏了,“震惊 ” ,“李飞飞”,“50 美元”,“Deep Seek R1 ” ,这几个词连到一起,简直是掀了 Open AI 和英伟达的桌子,即便是蒸馏出来的模型,那这么低的成本,OpenAI 花了几十、几百亿美元做出来的模型,被轻松复制,那 OpenAI 的估值不得打个骨折? 我就赶紧看了下论文:https://arxiv.org/html/2501.19393v1 GitHub:https://github.com/simplescaling/s1 结果发现并不是那么回事。 首先这个 50 美元咋来的?因为论文中提到用了 16 块 H100 GPU,而且只花了 26min,如果是租服务器的话,确实也就是几十美元。 但问题是, 论文中并不是训练出了 DeepSeek R1! 论文的核心内容是基于开源的 Qwen2.5-32B 模型,该模型是蒸馏出来的模型,32B 只能算是中等参数模型,作为本次实验对比的 R1 和 o1 都是大几千亿参数的模型。用小数据集进行监督微调,而且微 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览