AI界拼多多！杭州大模型DeepSeek，训练仅花4000万元，美国AI大佬全炸出来了

奇偶工作室 · 公众号 · · 2024-12-27 23:32

文章预览

AI界拼多多！国产AI大模型DeepSeek-V3版本正式发布，把美国AI大佬全炸出来了。延续便宜大碗的特点，DeepSeek V3发布即开源。还用53页论文，分享训练细节。更重要的是，大家第一时间在论文中发现了关键细节：训练过程，便宜又省钱！ DeepSeek 用十分之一的算力，做出了和 GPT-4o 及 Claude-3.5-Sonnet 性能相当的模型！ DeepSeek V3整个训练过程仅用了不到280万个GPU小时。对比参考：Llama 3 405B的训练时长是3080万GPU小时。训练671B的DeepSeek V3的成本是557.6万美元（约合4070万人民币）。而同类模型，大概需要1.5万块 H100，DeepSeek用了 2048 块H800就做出来了。海外对deepseek的赞叹和不解，远高于国内。 OpenAI创始成员AK对此赞道： DeepSeek V3让在有限算力预算上进行模型预训练这件事变得容易。 DeepSeek V3看起来比Llama 3 405B更强，训练消耗的算力却仅为后者的1/11。 Meta科学 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博