MiniMax开源旗舰新模型：400万上下文、全新架构，性能比肩DeepSeek-v3、GPT-4o

Founder Park · 公众号 · 科技创业科技自媒体 · 2025-01-15 14:12

主要观点总结

MiniMax开源了最新模型MiniMax-01系列，包含语言模型MiniMax-Text-01和视觉多模态模型MiniMax-VL-01。MiniMax-01采用了新型Lightning Attention架构，使模型能够高效处理4M token上下文，性能与顶级闭源模型相当。网友测试后直呼“难以置信”，认为模型的长上下文处理能力出色。此外，该模型还有混合架构、高效的计算通信重叠方法等特点，并在多个基准测试中表现优秀。MiniMax-VL-01则是多模态大语言模型，具有动态分辨率功能。

关键观点总结

关键观点1: MiniMax开源最新模型MiniMax-01系列

包含语言模型MiniMax-Text-01和视觉多模态模型MiniMax-VL-01

关键观点2: MiniMax-01采用Lightning Attention架构

能够高效处理4M token上下文，性能与顶级闭源模型相当

关键观点3: 网友对MiniMax-01的长上下文处理能力印象深刻

网友测试后表示难以置信，认为该模型具有显著优势。

关键观点4: MiniMax-Text-01采用混合架构和高效的计算通信策略

在多个基准测试中表现优秀，具有创新性的架构和优秀的性能表现。

关键观点5: MiniMax-VL-01是多模态大语言模型

具有动态分辨率功能，可处理图像和文本数据。

文章预览

文章转载自「量子位」，略有调整。开源模型上下文窗口卷到超长，达400万token！刚刚，“大模型六小强”之一MiniMax开源最新模型—— MiniMax-01系列，包含两个模型：基础语言模型MiniMax-Text-01、视觉多模态模型MiniMax-VL-01。 MiniMax-01首次大规模扩展了新型Lightning Attention架构，替代了传统Transformer架构，使模型能够高效处理4M token上下文。在基准测试中， MiniMax-01性能与顶级闭源模型表现相当。目前网页体验和API也都已经上线，可以在线体验和商用。 01 模型性能追平GPT-4o MiniMax-Text-01性能与前段时间大火的DeepSeek-V3、GPT-4o等打的有来有回：如下图(c)所示，当上下文超过20万token，MiniMax-Text-01的优势逐渐明显。在预填充延迟方面也有显著优势，在处理超长上下文时更高效，延迟更低：网友直呼“难以置信”：开放权重，拥有400万token的上下文窗口！ ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博