性能比肩DeepSeek-v3、GPT-4o！MiniMax开源4M超长上下文新模型

人工智能与算法学习 · 公众号 · · 2025-01-15 14:49

文章预览

来源：量子位开源模型上下文窗口卷到超长，达 400万 token ！刚刚，“大模型六小强”之一 MiniMax开源最新模型 —— MiniMax-01系列，包含两个模型：基础语言模型MiniMax-Text-01、视觉多模态模型MiniMax-VL-01。 MiniMax-01首次大规模扩展了新型 Lightning Attention架构，替代了传统Transformer架构，使模型能够高效处理4M token上下文。在基准测试中，MiniMax-01性能与顶级闭源模型表现相当。 MiniMax-Text-01性能与前段时间大火的DeepSeek-V3、GPT-4o等打的有来有回：如下图(c)所示，当上下文超过20万token，MiniMax-Text-01的优势逐渐明显。在预填充延迟方面也有显著优势，在处理超长上下文时更高效，延迟更低：网友直呼“难以置信”：开放权重，拥有400万token的上下文窗口！我原本以为这可能要五年后才会实现。官方表示，MiniMax-01是为支持之后Agent相关应用而预备的：因为A ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

量化投资与机器学习 · D.E.Shaw 夺魁！

10 小时前

爱可可-爱生活 · 晚安～ #晚安# -20250119220426

昨天

西藏商务 · 西藏自治区应急指挥部关于终止西藏自治区地震一级应急响应的决定

昨天

爱可可-爱生活 · 人们常说，要追求卓越，创造奇迹。但生活的真相是：一盏始终如一的烛-20250118215123

2 天前

爱可可-爱生活 · 【构建基于生成式 AI 的应用时常见的陷阱，包括不必要地使用 A-20250118154213

2 天前

星海情报局 · 钢铁与算法：当AI用在工业界，到底能有多强大

7 月前

苏音资源库 · 强！我用chatgpt写了一款程序

7 月前

惠州发布 · 近期惠州报告新增29例登革热本地病例，这些区域存在传播风险

3 月前