专栏名称: 拾柒年蝉
人一生中 | 必须有一样 | 不以此谋生的工作
今天看啥  ›  专栏  ›  拾柒年蝉

DeepSeek核心论文全译本:DeepSeek-V3 技术报告

拾柒年蝉  · 公众号  ·  · 2025-02-06 11:46
    

文章预览

DeepSeek-V3 技术报告 DeepSeek-AIresearch@deepseek.com 原文链接:https://arxiv.org/html/2412.19437v1 摘要 我们推出了 DeepSeek-V3,这是一款强大的专家混合(Mixture-of-Experts,MoE)语言模型,总参数量达到 6710 亿,每个令牌激活 370 亿参数。为了实现高效推理和成本效益高的训练,DeepSeek-V3 采用了多头潜在注意力(Multi-head Latent Attention,MLA)和 DeepSeekMoE 架构,这些架构在 DeepSeek-V2 中已得到充分验证。此外,DeepSeek-V3 在模型负载均衡方面创新性地引入了无需辅助损失(auxiliary-loss-free)策略,并设定了多令牌预测的训练目标,从而提升模型性能。 我们在 14.8 万亿个多样且高质量的令牌上对 DeepSeek-V3 进行了预训练,随后通过监督微调(Supervised Fine-Tuning)和强化学习(Reinforcement Learning)阶段,充分发挥模型的潜力。全面的评估结果表明,DeepSeek-V3 的性能优于其他开源模型 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览