专栏名称: 科技每日推送

有态度的科技生活媒体，网聚240万+数码达人，专注手机技巧攻略，新品评测试用和互联网爆料，并提供新机报价，手机保修状态、维修回收估价、山寨机鉴别和维修店位置等丰富的查询功能！

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

AI界拼多多！杭州大模型DeepSeek，训练仅花4000万元，美国AI大佬全炸出来了

科技每日推送 · 公众号 · 科技媒体 · 2024-12-28 10:41

文章预览

AI界拼多多！国产AI大模型DeepSeek-V3版本正式发布，把美国AI大佬全炸出来了。延续便宜大碗的特点，DeepSeek V3发布即开源。还用53页论文，分享训练细节。更重要的是，大家第一时间在论文中发现了关键细节：训练过程，便宜又省钱！ DeepSeek 用十分之一的算力，做出了和 GPT-4o 及 Claude-3.5-Sonnet 性能相当的模型！ DeepSeek V3整个训练过程仅用了不到280万个GPU小时。对比参考：Llama 3 405B的训练时长是3080万GPU小时。训练671B的DeepSeek V3的成本是557.6万美元（约合4070万人民币）。而同类模型，大概需要1.5万块 H100，DeepSeek用了 2048 块H800就做出来了。海外对deepseek的赞叹和不解，远高于国内。 OpenAI创始成员AK对此赞道： DeepSeek V3让在有限算力预算上进行模型预训练这件事变得容易。 DeepSeek V3看起来比Llama 3 405B更强，训练消耗的算力却仅为后者的1/11。 Meta科 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

新浪科技 · 【两部门：#取消外商投资性公司使用境内贷款限制#】国务院办公厅转-20250219205200

9 小时前

新浪科技 · 【#福特近半数中层管理人员无缘股票奖金#】据IT之家，路透社今日-20250219195024

10 小时前

新浪科技 · 【#华为三折叠海外发布##华为三折叠海外售价3499欧元#】华为-20250219103830

19 小时前

36氪 · 「两只兔子Buddy Buzzy」完成亿元级融资，儿童安全座椅累计销量超30万台｜早起看早期

昨天

IT之家 · 《哪吒2》杀入全球影史票房前9！在美排片疑遭排挤，国内影城的操作好玩到简直了

2 天前

小学数学 · 奥数课堂：圆与扇形之割补法

2 月前

李楠或kkk · 模型，本质还是基于数据的某种还未完全可解释的统计学的神经网络映射-20241208235901

2 月前

德鲁克博雅管理 · 管理者八大基本管理技能

2 周前