文章预览
AI界拼多多! 国产AI大模型DeepSeek-V3版本正式发布,把美国AI大佬全炸出来了。 延续便宜大碗的特点,DeepSeek V3发布即开源。 还用53页论文,分享训练细节。 更重要的是,大家第一时间在论文中发现了关键细节: 训练过程,便宜又省钱! DeepSeek 用十分之一的算力,做出了和 GPT-4o 及 Claude-3.5-Sonnet 性能相当的模型! DeepSeek V3整个训练过程仅用了不到280万个GPU小时。 对比参考:Llama 3 405B的训练时长是3080万GPU小时。 训练671B的DeepSeek V3的成本是557.6万美元(约合4070万人民币)。 而同类模型,大概需要1.5万块 H100,DeepSeek用了 2048 块H800就做出来了。 海外对deepseek的赞叹和不解,远高于国内。 OpenAI创始成员AK对此赞道: DeepSeek V3让在有限算力预算上进行模型预训练这件事变得容易。 DeepSeek V3看起来比Llama 3 405B更强,训练消耗的算力却仅为后者的1/11。 Meta科学
………………………………