专栏名称: 奇偶工作室
Leo和基哥联手,打造有趣有料有情怀的科技号。一点资讯视频榜TOP10、科技前瞻奖。网易新闻年度短视频风云作者、网易短视频签约达人。
目录
相关文章推荐
今天看啥  ›  专栏  ›  奇偶工作室

AI界拼多多!杭州大模型DeepSeek,训练仅花4000万元,美国AI大佬全炸出来了

奇偶工作室  · 公众号  ·  · 2024-12-27 23:32
    

文章预览

AI界拼多多! 国产AI大模型DeepSeek-V3版本正式发布,把美国AI大佬全炸出来了。 延续便宜大碗的特点,DeepSeek V3发布即开源。 还用53页论文,分享训练细节。 更重要的是,大家第一时间在论文中发现了关键细节: 训练过程,便宜又省钱! DeepSeek 用十分之一的算力,做出了和 GPT-4o 及 Claude-3.5-Sonnet 性能相当的模型! DeepSeek V3整个训练过程仅用了不到280万个GPU小时。 对比参考:Llama 3 405B的训练时长是3080万GPU小时。 训练671B的DeepSeek V3的成本是557.6万美元(约合4070万人民币)。 而同类模型,大概需要1.5万块 H100,DeepSeek用了 2048 块H800就做出来了。 海外对deepseek的赞叹和不解,远高于国内。 OpenAI创始成员AK对此赞道: DeepSeek V3让在有限算力预算上进行模型预训练这件事变得容易。 DeepSeek V3看起来比Llama 3 405B更强,训练消耗的算力却仅为后者的1/11。 Meta科学 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览