专栏名称: AI寒武纪
Attention Is All You Need
今天看啥  ›  专栏  ›  AI寒武纪

Deepseek v3正式发布:用557.6万美金超越Claude 3.5 Sonnet的惊人杰作

AI寒武纪  · 公众号  ·  · 2024-12-27 09:04
    

文章预览

  2024年12月26日,DeepSeek AI正式发布了其最新的大型语言模型——DeepSeek-V3,每秒处理 60 个 token,比 V2 快 3 倍!MoE架构,6710 亿参数,激活 370 亿参数,训练基于 14.8 万亿高质量 token,完全开源,附送53页pdf技术论文 主要看点 1. DeepSeek-V3 采用了创新的知识蒸馏方法,将 DeepSeek R1 系列模型中的推理能力迁移到标准 LLM 中。该方法巧妙地融合了 R1 的验证和反思模式,显著提高了 DeepSeek-V3 的推理性能,同时又保留了对输出风格和长度的控制 2. 首次在大规模模型上验证了 FP8 训练的可行性和有效性 3. 通过协同优化,有效克服了跨节点 MoE 训练中的通信瓶颈,使得计算与通信几乎完全重叠 4. 在 DeepSeek-V2 高效架构的基础上,DeepSeek-V3 引入无辅助损失的负载均衡策略和多标记预测(MTP)目标,不仅提升模型性能,还支持推理加速的预测解码 5. 仅耗费了 266.4万 H800 GP ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览