文章预览
作者:雅各布,代码智能Copilot & 高性能分布式机器学习系统 原文:https://zhuanlan.zhihu.com/p/18653363414 推荐阅读 MiniMax-01技术报告解读 DeepSeek-V3技术报告解读 MiniMax-01 与 DeepSeek-V3 对比 方面 MiniMax-01 DeepSeek-V3 模型架构 基于线性注意力机制,采用混合架构 (Hybrid-Lightning),并集成了 MoE 架构。 基于 Transformer 架构,采用 MLA 和 DeepSeekMoE 架构,并引入了辅助损失无关的负载均衡策略。 参数规模 4560 亿总参数,459 亿激活参数。 6710 亿总参数,370 亿激活参数。 训练数据 14.8 万亿 token,涵盖学术文献、书籍、网络内容和编程代码等。 14.8 万亿 token,涵盖高质量、多样化的文本数据,并优化了数学和编程样本的比例。 训练策略 采用三阶段训练方法,将上下文窗口扩展到 100 万 token,并最终外推到 400 万 token。 采用两阶段上下文扩展训练,将上下
………………………………