专栏名称: C114通信网
中国知名通信行业网站
今天看啥  ›  专栏  ›  C114通信网

不到600万美元,匹敌GPT4.0!DeepSeek-V3发布震惊业界

C114通信网  · 公众号  ·  · 2024-12-30 18:00
    

文章预览

近日,幻方量化旗下的DeepSeek公司宣布发布全新系列模型DeepSeek-V3首个版本,并同步开源。 DeepSeek-V3为自研MoE模型,671B参数,激活37B,在14.8T token上进行了预训练。 DeepSeek引用评测报告指出,DeepSeek-V3多项评测成绩超越了阿里旗下Qwen2.5-72B和Meta旗下Llama-3.1-405B等其他开源模型,并在性能上和世界顶尖的闭源模型GPT-4o以及Claude-3.5-Sonnet不分伯仲。 令业界震惊的是,DeepSeek-V3训练仅花费了557.6万美元,在2048xH800集群上运行55天完成,还很坦诚地公布了技术细节。 相比之下,GPT-4o这样的模型训练成本约为1亿美元。 这一成果已经引起海外注意。其中,OpenAI创始成员Karpathy点评称,DeepSeek-V3让在有限算力预算上进行模型预训练这件事变得容易。它看起来比Llama 3 405B更强,训练消耗的算力却仅为后者的1/11。 这意味着算力成本的大幅下降,也意味着大模型领域在经 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览