文章预览
来源:究模智 昨晚,DeepSeek 在毫无预告的情况下,悄然上线了最新版本的 DeepSeek-V3-0324 模型。此次更新虽非万众期待的 DeepSeek-R2,但在编程、数学推理等方面带来了显著提升,甚至在某些能力上已接近 Claude 3.7 Sonnet,引发AI社区广泛关注。 核心升级:编程与数学能力飞跃 DeepSeek-V3-0324 基于 6850亿参数 架构(实际激活参数约370亿),采用混合专家(MoE)设计,优化了计算效率。DeepSeek此次创新的同时也强调了模型训练过程中的负载均衡策略,引入了“偏差项”机制,有效协调各个专家节点的负载。此外,其采用的节点受限路由机制,在大规模分布式训练过程中,显著降低了跨节点通信的成本,提高了整体训练效率。 该模型还采用了另外两项突破性技术:多头潜在注意力(MLA) 和多标记预测(MTP)。MLA 增强了模型在长篇文本中保持上下文的能力,而 MTP 每
………………………………