文章预览
DeepSeek-V3 技术报告 DeepSeek-AIresearch@deepseek.com 原文链接:https://arxiv.org/html/2412.19437v1 摘要 我们推出了 DeepSeek-V3,这是一款强大的专家混合(Mixture-of-Experts,MoE)语言模型,总参数量达到 6710 亿,每个令牌激活 370 亿参数。为了实现高效推理和成本效益高的训练,DeepSeek-V3 采用了多头潜在注意力(Multi-head Latent Attention,MLA)和 DeepSeekMoE 架构,这些架构在 DeepSeek-V2 中已得到充分验证。此外,DeepSeek-V3 在模型负载均衡方面创新性地引入了无需辅助损失(auxiliary-loss-free)策略,并设定了多令牌预测的训练目标,从而提升模型性能。 我们在 14.8 万亿个多样且高质量的令牌上对 DeepSeek-V3 进行了预训练,随后通过监督微调(Supervised Fine-Tuning)和强化学习(Reinforcement Learning)阶段,充分发挥模型的潜力。全面的评估结果表明,DeepSeek-V3 的性能优于其他开源模型
………………………………