今天看啥  ›  专栏  ›  计算机司令部

Deepseek是“算力屠夫”还是“新春红包”?

计算机司令部  · 公众号  ·  · 2025-01-29 14:18
    

文章预览

Deepseek或是算力星辰大海的一朵“小浪花 1 .  556万美元远远低估DeepSeek v3真实训练算力与未来发展需求 据DeepSeek V3论文,556万美元的成本仅包括DeepSeek-V3 的正式训练,不包括与架构、算法、数据相关的前期研究、消融实验的成本。而基于充足前期准备进行正式训练的成本往往都比较低,单独讨论正式训练成本属于断章取义。以同样在2025年1月发布的加州大学伯克利Sky-T1-32B-Preview为例,其正式训练成本仅为450美元,但在数学能力等方面跑分超过OpenAI o1-Preview。 DeepSeeK V3论文: https://github.com/deepseek-ai/DeepSeek-V3/blob/main/DeepSeek_V3.pdf Sky-T1-32B项目地址: https://github.com/NovaSky-AI/SkyThought 2. 太阳底下无新鲜事:后发模型的算力效率优势曾导致英伟达股价大跌,事后看只是算力需求发展星辰大海的小浪花 无独有偶,2024年4月19日,Meta发布LLaMA 3大模型,从跑分数据来 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览