专栏名称: AI领域技术栈
人工智能领域技术:计算机视觉、自然语言处理、深度学习、语音识别、生物识别、大数据、图像识别、机器人过程自动化、知识图谱、人机交互、强化学习、神经网络、决策树、语音合成、虚拟代理、自主无人系统技术、自动驾驶、脑机接口、语义理解、遗传算法
今天看啥  ›  专栏  ›  AI领域技术栈

中国MoE一夜爆火!大模型新王DeepSeek-V3暴打GPT-4o,训练成本仅600万美元!

AI领域技术栈  · 公众号  ·  · 2024-12-28 14:31
    

文章预览

在AI领域,每一次技术的飞跃都足以让整个行业为之震动。近日,一款名为DeepSeek-V3的中国大模型横空出世,凭借卓越的性能和惊人的训练成本,一夜之间刷爆了全网。这款拥有671B参数的MoE(混合专家)模型,不仅在多项基准测试中与Claude 3.5 Sonnet、GPT-4o等国外顶尖大模型相匹敌,甚至在数学代码方面完全碾压了GPT-4o。更令人震惊的是,它的训练成本仅为600万美元,远低于业界的预期。   DeepSeek-V3:性能卓越,碾压GPT-4o DeepSeek-V3的横空出世,无疑给整个AI圈带来了巨大的冲击。这款模型在吞吐量上每秒高达60 token,比上一代V2直接飙升了3倍。在多项基准测试中,它的性能表现令人瞩目。在数学领域MATH 500基准上,DeepSeek-V3拿下了90.2的高分,比Claude 3.5 Sonnet和GPT-4o超出了10分以上。在AIME 2024测试中,它也取得了领先优势,飙升近20分。在代码Codeforces ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览