MiniMax开源4M超长上下文新模型！性能比肩DeepSeek-v3、GPT-4o

量子位 · 公众号 · AI · 2025-01-15 12:14

主要观点总结

文章介绍了开源模型MiniMax系列的最新模型MiniMax-01，包括其语言模型和视觉多模态模型的特性。MiniMax-01通过采用新型Lightning Attention架构替代传统Transformer架构，能够高效处理长达4M token的上下文。在语言理解和多模态任务方面表现出色，并通过一系列基准测试验证了其性能。该模型已在Hailuo AI上部署，并提供免费试用。网友对此表示惊叹并已开始进行实测。

关键观点总结

关键观点1: MiniMax-01系列包含语言模型MiniMax-Text-01和视觉多模态模型MiniMax-VL-01。

这两个模型是“大模型六小强”之一的MiniMax的最新开源模型。

关键观点2: MiniMax-01首次大规模扩展了Lightning Attention架构。

这一新型架构使模型能够高效处理长达4M token的上下文，性能与顶级闭源模型相当。

关键观点3: MiniMax-Text-01在处理超长上下文时具有显著优势。

它在预填充延迟方面也有优势，能够在处理超长上下文时更高效，延迟更低。

关键观点4: MiniMax-VL-01采用多模态大语言模型常用的“ViT-MLP-LLM”框架。

该模型具有动态分辨率功能，可根据预设网格调整输入图像大小，并在多模态任务中表现出突出优势。

关键观点5: 网友们对新模型进行实测并表现出浓厚兴趣。

新模型已在Hailuo AI上部署，提供免费试用，并有一系列令人印象深刻的实测表现。

文章预览

西风发自凹非寺量子位 | 公众号 QbitAI 开源模型上下文窗口卷到超长，达 400万 token ！刚刚，“大模型六小强”之一 MiniMax开源最新模型 —— MiniMax-01系列，包含两个模型：基础语言模型MiniMax-Text-01、视觉多模态模型MiniMax-VL-01。 MiniMax-01首次大规模扩展了新型 Lightning Attention架构，替代了传统Transformer架构，使模型能够高效处理4M token上下文。在基准测试中，MiniMax-01性能与顶级闭源模型表现相当。 MiniMax-Text-01性能与前段时间大火的DeepSeek-V3、GPT-4o等打的有来有回：如下图(c)所示，当上下文超过20万token，MiniMax-Text-01的优势逐渐明显。在预填充延迟方面也有显著优势，在处理超长上下文时更高效，延迟更低：网友直呼“难以置信”：开放权重，拥有400万token的上下文窗口！我原本以为这可能要五年后才会实现。官方表示，MiniMax-01是为支持之后Agent ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博