DeepSeek利空算力？

新机器视觉 · 公众号 · · 2025-02-06 11:47

文章预览

来源：信息平权其实具体逻辑，从12月deepseek v3到这周的r1，我们前前后后分析过很多次了，不妨总结梳理下 1. 海外广泛引用的550万美金是v3，而不是r1的训练成本，且550万只是v3实际训练成本的零头。 v3 论文原话：上述成本仅包括DeepSeek-V3 的正式训练，不包括与架构、算法、数据相关的前期研究、消融实验的成本。社群内一位算法工程师就曾说“v3 用了幻方自己的r1模型生成数据，这个部分的反复尝试要不要算在成本里呢？”一个意思。 2. 前沿探索和后发追赶，所需要的算力本就不是一个量级。表现为训练同一代模型所需算力每隔N个月就是指数级降低。原因包括算法本身的进步（FP8、混合MoE）、算力的持续通缩、复现方法如蒸馏等对数据的浓缩。最关键的是，探索就意味着会有浪费，而后发追赶“站在巨人肩膀上”本就可以规避浪费。就比 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

深圳大件事 · 计划年内通车！深圳一重要路段，再传新进展

17 小时前

深圳特区报 · 请看，今天的深圳特区报

2 天前

深圳宁南山 · 人类活动的物理空间主要是海陆空天四个，对应的造船业、汽车工业、航-20250226180001

2 天前

东吴研究所 · 【电力设备*曾朵红】24Q2基金持仓深度：电新重仓Q2总体下降，电网、风电上升，电动车、光伏、工控、储能均下降

7 月前