专栏名称: 深度学习与NLP
专注深度学习、NLP相关技术、资讯,追求纯粹的技术,享受学习、分享的快乐。
今天看啥  ›  专栏  ›  深度学习与NLP

MiniMax-01 与 DeepSeek-V3 对比

深度学习与NLP  · 公众号  ·  · 2025-01-20 00:00
    

文章预览

  作者:雅各布,代码智能Copilot & 高性能分布式机器学习系统 原文:https://zhuanlan.zhihu.com/p/18653363414               推荐阅读   MiniMax-01技术报告解读 DeepSeek-V3技术报告解读 MiniMax-01 与 DeepSeek-V3 对比 方面 MiniMax-01 DeepSeek-V3 模型架构 基于线性注意力机制,采用混合架构 (Hybrid-Lightning),并集成了 MoE 架构。 基于 Transformer 架构,采用 MLA 和 DeepSeekMoE 架构,并引入了辅助损失无关的负载均衡策略。 参数规模 4560 亿总参数,459 亿激活参数。 6710 亿总参数,370 亿激活参数。 训练数据 14.8 万亿 token,涵盖学术文献、书籍、网络内容和编程代码等。 14.8 万亿 token,涵盖高质量、多样化的文本数据,并优化了数学和编程样本的比例。 训练策略 采用三阶段训练方法,将上下文窗口扩展到 100 万 token,并最终外推到 400 万 token。 采用两阶段上下文扩展训练,将上下 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览