专栏名称: 哲学园
哲学是爱智慧, 爱智慧乃是对心灵的驯化。 这里是理念的在场、诗意的栖居地。 关注哲学园,认识你自己。
今天看啥  ›  专栏  ›  哲学园

DeepSeek核心论文全译本:DeepSeek-V3 技术报告

哲学园  · 公众号  · 哲学  · 2025-02-07 00:00
    

文章预览

DeepSeek核心论文全译本(1):DeepSeek-R1:通过强化学习提升大语言模型 (LLM) 的推理能力 DeepSeek-V3 技术报告 DeepSeek-AI research@deepseek.com 原文链接: https://arxiv.org/html/2412.19437v1 摘要 我们推出了 DeepSeek-V3,这是一款强大的专家混合(Mixture-of-Experts,MoE)语言模型,总参数量达到 6710 亿,每个令牌激活 370 亿参数。为了实现高效推理和成本效益高的训练,DeepSeek-V3 采用了多头潜在注意力(Multi-head Latent Attention,MLA)和 DeepSeekMoE 架构,这些架构在 DeepSeek-V2 中已得到充分验证。此外,DeepSeek-V3 在模型负载均衡方面创新性地引入了无需辅助损失(auxiliary-loss-free)策略,并设定了多令牌预测的训练目标,从而提升模型性能。 我们在 14.8 万亿个多样且高质量的令牌上对 DeepSeek-V3 进行了预训练,随后通过监督微调(Supervised Fine-Tuning)和强化学习(Reinforcement Learning ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览