DeepSeek核心论文全译本：DeepSeek-V3 技术报告

拾柒年蝉 · 公众号 · · 2025-02-06 11:46

文章预览

DeepSeek-V3 技术报告 DeepSeek-AIresearch@deepseek.com 原文链接：https://arxiv.org/html/2412.19437v1 摘要我们推出了 DeepSeek-V3，这是一款强大的专家混合（Mixture-of-Experts，MoE）语言模型，总参数量达到 6710 亿，每个令牌激活 370 亿参数。为了实现高效推理和成本效益高的训练，DeepSeek-V3 采用了多头潜在注意力（Multi-head Latent Attention，MLA）和 DeepSeekMoE 架构，这些架构在 DeepSeek-V2 中已得到充分验证。此外，DeepSeek-V3 在模型负载均衡方面创新性地引入了无需辅助损失（auxiliary-loss-free）策略，并设定了多令牌预测的训练目标，从而提升模型性能。我们在 14.8 万亿个多样且高质量的令牌上对 DeepSeek-V3 进行了预训练，随后通过监督微调（Supervised Fine-Tuning）和强化学习（Reinforcement Learning）阶段，充分发挥模型的潜力。全面的评估结果表明，DeepSeek-V3 的性能优于其他开源模型 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博