MiniMax-01 与 DeepSeek-V3 对比

深度学习与NLP · 公众号 · · 2025-01-20 00:00

文章预览

作者：雅各布，代码智能Copilot & 高性能分布式机器学习系统原文：https://zhuanlan.zhihu.com/p/18653363414 推荐阅读 MiniMax-01技术报告解读 DeepSeek-V3技术报告解读 MiniMax-01 与 DeepSeek-V3 对比方面 MiniMax-01 DeepSeek-V3 模型架构基于线性注意力机制，采用混合架构 (Hybrid-Lightning)，并集成了 MoE 架构。基于 Transformer 架构，采用 MLA 和 DeepSeekMoE 架构，并引入了辅助损失无关的负载均衡策略。参数规模 4560 亿总参数，459 亿激活参数。 6710 亿总参数，370 亿激活参数。训练数据 14.8 万亿 token，涵盖学术文献、书籍、网络内容和编程代码等。 14.8 万亿 token，涵盖高质量、多样化的文本数据，并优化了数学和编程样本的比例。训练策略采用三阶段训练方法，将上下文窗口扩展到 100 万 token，并最终外推到 400 万 token。采用两阶段上下文扩展训练，将上下 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博