专栏名称: 吃果冻不吐果冻皮
专注于AI工程化(LLM、MLOps、LLMOps、RAG、Agent)落地。
今天看啥  ›  专栏  ›  吃果冻不吐果冻皮

计算DeepSeekV3训练的MFU

吃果冻不吐果冻皮  · 公众号  ·  · 2025-01-06 20:55
    

文章预览

原文:https://zhuanlan.zhihu.com/p/16445683081 本文利用公开信息推导得到DeepSeekV3训练时候的MFU为37%左右,相比V2的MFU提升大概60%,希望对后续技术讨论提供数据支撑。 自2024年12月发布以来,DeepSeekV3在人工智能领域引发了广泛关注。该模型不仅被国内三大顶会公众号上连篇累牍报道,更在海外社交媒体平台X等渠道引发热议。其关键因素之一在于突破性的训练成本控制——仅用557万美元便训练出了性能达到SOTA水平的模型。这一成就不仅引发业界对AI模型训练成本效益的重新思考,更延伸出对美国对华技术出口管制政策有效性的讨论,甚至影响到投资者对英伟达股价走势的判断。 神秘的幻方公司,加之某热点人物跳槽的花边,DeepSeekV3目前俨然成为舆论焦点,其影响力已远远超出技术领域,被置于中美科技博弈、中国创新实力等宏观议题中深入探讨。随着讨论 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览