国产开源模型，代码能力比肩 Claude，DeepSeek-V3 正式发布

Founder Park · 公众号 · 科技自媒体 · 2024-12-26 21:44

主要观点总结

DeepSeek发布了v3模型的首个版本，该模型在多项测评中表现出色，甚至在某些方面与顶尖闭源模型相抗衡。DeepSeek-V3具有强大的知识类任务、长文本测评、代码能力、数学能力以及中文能力。其生成速度大幅提升，API服务价格也有所调整。DeepSeek-V3还开源了原生FP8权重，并提供了本地部署的便利。DeepSeek坚信以开源精神和长期主义追求普惠AGI的信念，并计划在DeepSeek-V3基座模型上打造更多功能。

关键观点总结

关键观点1: DeepSeek-V3模型的发布和主要特点

DeepSeek刚刚发布了v3模型的首个版本，该模型在多项测评中表现出色，包括知识类任务、长文本测评、代码能力、数学能力和中文能力。其性能与顶尖闭源模型相抗衡。

关键观点2: DeepSeek-V3的生成速度和API服务价格

DeepSeek-V3的生成速度大幅提升，API服务价格也有所调整。DeepSeek为全新模型设置了45天的优惠价格体验期。

关键观点3: DeepSeek-V3的开源权重和本地部署

DeepSeek-V3采用FP8训练，并开源了原生FP8权重。为方便社区适配和拓展应用场景，DeepSeek提供了从FP8到BF16的转换脚本。

关键观点4: DeepSeek的信念和未来计划

DeepSeek坚信以开源精神和长期主义追求普惠AGI的信念。他们计划在DeepSeek-V3基座模型上继续打造更多功能，并与社区分享最新的探索成果。

文章预览

DeepSeek 刚刚发布了 v3 模型的首个版本，开源上线。引起了不少讨论，尤其提到 DeepSeek-V3 代码能力比肩目前行业共识最好的 Claude Sonnet 3.5。很高兴开源有了新的领先力量，并且来自国内。以下内容来源 DeepSeek 官方信息。今天，我们全新系列模型 DeepSeek-V3 首个版本上线并同步开源。登录官网 chat.deepseek.com 即可与最新版 V3 模型对话。API 服务已同步更新，接口配置无需改动。当前版本的 DeepSeek-V3 暂不支持多模态输入输出。性能对齐海外领军闭源模型 DeepSeek-V3 为自研 MoE 模型，671B 参数，激活 37B，在 14.8T token 上进行了预训练。论文链接： https://github.com/deepseek-ai/DeepSeek-V3/blob/main/DeepSeek_V3.pdf DeepSeek-V3 多项评测成绩超越了 Qwen2.5-72B 和 Llama-3.1-405B 等其他开源模型，并在性能上和世界顶尖的闭源模型 GPT-4o 以及 Claude-3.5-Sonnet 不分伯仲。百科知识：DeepS ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博