专栏名称: 新机器视觉
最前沿的机器视觉与计算机视觉技术
今天看啥  ›  专栏  ›  新机器视觉

DeepSeek利空算力?

新机器视觉  · 公众号  ·  · 2025-02-06 11:47
    

文章预览

来源:信息平权 其实具体逻辑,从12月deepseek v3到这周的r1,我们前前后后分析过很多次了,不妨总结梳理下 1. 海外广泛引用的550万美金是v3,而不是r1的训练成本,且550万只是v3实际训练成本的零头。 v3 论文原话: 上述成本仅包括DeepSeek-V3 的正式训练,不包括与架构、算法、数据相关的前期研究、消融实验的成本 。社群内一位算法工程师就曾说“v3 用了幻方自己的r1模型生成数据 ,这个部分的反复尝试要不要算在成本里呢?”一个意思。 2. 前沿探索和后发追赶,所需要的算力本就不是一个量级。表现为 训练同一代模型所需算力每隔N个月就是指数级降低。原因包括 算法本身的进步(FP8、混合MoE)、算力的持续通缩、复现方法如蒸馏等对数据的浓缩。 最关键的是,探索就意味着会有浪费,而后发追赶“站在巨人肩膀上”本就可以规避浪费。 就比 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览