国产之光DeepSeek把AI大佬全炸出来了！671B大模型训练只需此前算力1/10，细节全公开

量子位 · 公众号 · AI · 2024-12-27 12:32

主要观点总结

DeepSeek V3模型正式发布，这是一个参数量为671B的MoE模型，在多项测评上达到开源SOTA。该模型具有优雅、高效、经济的特点，超越了Llama 3.1 405B等模型。DeepSeek V3的训练过程仅用了不到280万个GPU小时，相比之下Llama 3 405B的训练时长是3080万GPU小时。该模型的能力不仅超越了开源模型，甚至和一些顶尖闭源模型不相上下。DeepSeek V3的API价格也很具有竞争力，为使用者提供了快速、高质量、高性价比的体验。

关键观点总结

关键观点1: DeepSeek V3模型的特点和成就

DeepSeek V3是一个参数量为671B的MoE模型，具有优雅、高效、经济的特点。在多项测评上达到开源SOTA，超越了Llama 3.1 405B等模型。其训练消耗的算力仅为后者的1/11。

关键观点2: DeepSeek V3的训练成本和时间

DeepSeek V3的训练成本为557.6万美元，训练时长为3.7天。相比其他模型，其训练成本和时间更为经济。

关键观点3: DeepSeek V3的API价格和性能

DeepSeek V3的API价格具有竞争力，每百万输入tokens 0.5元（缓存命中）/ 2元（缓存未命中），每百万输出tokens 8元。其生成速度提升了3倍，每秒生成60个tokens。

关键观点4: DeepSeek V3的实测效果

DeepSeek V3在多项测试中表现优秀，包括模型能力评测和实际响应测试。其答案和分析过程准确无误，得到了用户的认可。

关键观点5: DeepSeek团队的专业知识和背景

DeepSeek团队的成就根植于多年的专业知识，这些专业知识部分被许多人忽视。团队成员之间的合作和专业知识互补使得他们能够取得如此伟大的成就。

文章预览

鱼羊一水发自凹非寺量子位 | 公众号 QbitAI DeepSeek新版模型正式发布，技术大佬们都转疯了！延续便宜大碗特点的基础之上，DeepSeek V3发布即完全开源，直接用了53页论文把训练细节和盘托出的那种。怎么说呢，QLoRA一作的一个词评价就是：优雅。具体来说，DeepSeek V3是一个参数量为 671B 的MoE模型，激活37B ，在 14.8T 高质量token上进行了预训练。在多项测评上，DeepSeek V3达到了开源SOTA，超越Llama 3.1 405B，能和GPT-4o、Claude 3.5 Sonnet等TOP模型正面掰掰手腕—— 而其价格比Claude 3.5 Haiku还便宜，仅为Claude 3.5 Sonnet的9%。更重要的是，大家伙儿还第一时间在论文中发现了关键细节： DeepSeek V3整个训练过程仅用了不到 280万个GPU小时，相比之下，Llama 3 405B的训练时长是 3080万GPU小时（p.s. GPU型号也不同）。直观地从钱上来对比就是，训练671B的DeepSeek V3的成本 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博