国产 AI 一夜刷屏海外！2000 块 GPU 打造 GPT-4o 平替， AI 大佬纷纷点赞

爱范儿 · 公众号 · 科技媒体 · 2024-12-28 08:59

主要观点总结

中国大模型厂商DeepSeek宣布其最新模型DeepSeek-V3的上线并同步开源，该模型在多项基准测试中表现优异，与GPT-4o等不相上下。DeepSeek-V3具有高效益和低成本的特性，引起海内外专业人士的广泛关注和赞誉。该模型在预训练阶段采用了创新的技术，如MoE架构、多头潜在注意力等，实现了高效推理和成本优化。同时，DeepSeek-V3还率先开放了API服务定价和原生权重，为社区提供了丰富的资源和支持。

关键观点总结

关键观点1: DeepSeek-V3模型发布并同步开源

DeepSeek-V3在多项基准测试中表现出强大的性能，超越了其他开源模型，与GPT-4o等不相上下。

关键观点2: DeepSeek-V3的高效益和低成本特性

DeepSeek-V3不仅性能卓越，而且具有高效益和低成本的特性，引起了海内外专业人士的广泛关注和赞誉。

关键观点3: DeepSeek-V3的技术创新

DeepSeek-V3在预训练阶段采用了创新的技术，如MoE架构、多头潜在注意力等，实现了高效推理和成本优化。

关键观点4: DeepSeek-V3开放了API服务定价和原生权重

DeepSeek率先开放了采用FP8训练的DeepSeek-V3原生权重，为开发者提供了丰富的资源和支持。

关键观点5: DeepSeek-V3对开源社区的支持

DeepSeek为社区提供了从FP8到BF16的转换脚本，方便社区适配和拓展应用场景。

文章预览

一夜之间，中国大模型在国际上狠狠秀了一波肌肉。近日，国产大模型厂商 DeepSeek 宣布 DeepSeek-V3 首个版本上线并同步开源。多项基准测试成绩显示， DeepSeek-V3 超越 Qwen2.5-72B 和 Llama-3.1-405B 等其他开源模型，并在性能上与 GPT-4o 以及 Claude-3.5-Sonnet 不分伯仲。一手技术报告中提到，该模型的预训练阶段也就用 2048 块 GPU 训练了 2 个月，并且只花费了 557.6 万美元。低成本创造高价值。堪称国货之光的 DeepSeek-V3 更是直接炸出了一大堆海外专业 AI 人士的背书。醒醒，Deepseek，你现在是真的火了。附上体验地址：chat.deepseek.com DeepSeek-V3 上手实测，这次真的不一样先来看看 DeepSeek 官方交出的亮眼成绩单：百科知识：DeepSeek-V3 在知识类任务（MMLU, MMLU-Pro, GPQA, SimpleQA）上的水平相比前代 DeepSeek-V2.5 显著提升，接近当前表现最好的模型 Claude-3.5-Sonnet-1022 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博