专栏名称: 科技每日推送
有态度的科技生活媒体,网聚240万+数码达人,专注手机技巧攻略,新品评测试用和互联网爆料,并提供新机报价,手机保修状态、维修回收估价、山寨机鉴别和维修店位置等丰富的查询功能!
今天看啥  ›  专栏  ›  科技每日推送

AI界拼多多!杭州大模型DeepSeek,训练仅花4000万元,美国AI大佬全炸出来了

科技每日推送  · 公众号  · 科技媒体  · 2024-12-28 10:41
    

文章预览

AI界拼多多! 国产AI大模型DeepSeek-V3版本正式发布,把美国AI大佬全炸出来了。 延续便宜大碗的特点,DeepSeek V3发布即开源。 还用53页论文 ,分享训 练细节。 更重要的是,大家第一时间在论文中发现了关键细节: 训练过程,便宜又省钱! DeepSeek 用十分之一的算力,做出了和 GPT-4o 及 Claude-3.5-Sonnet 性能相当的模型! DeepSeek V3整个训练过程仅用了不到280万个GPU小时。 对比参考:Llama 3 405B的训练时长是3080万GPU小时。 训练671B的DeepSeek V3的成本是557.6万美元(约合4070万人民币)。 而同类模型,大概需要1.5万块 H100,DeepSeek用了 2048 块H800就做出来了。 海外对deepseek的赞叹和不解,远高于国内。 OpenAI创始成员AK对此赞道: DeepSeek V3让在有限算力预算上进行模型预训练这件事变得容易。 DeepSeek V3看起来比Llama 3 405B更强,训练消耗的算力却仅为后者的1/11。 Meta科 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览