这里是AI领域学习交流的平台!分享人工智能、机器学习、深度学习、计算机视觉、自然语言处理、算法原理、科技前沿、行业动态等,为您提供最有价值的知识和资讯。
今天看啥  ›  专栏  ›  人工智能与算法学习

性能比肩DeepSeek-v3、GPT-4o!MiniMax开源4M超长上下文新模型

人工智能与算法学习  · 公众号  ·  · 2025-01-15 14:49
    

文章预览

来源:量子位 开源模型上下文窗口卷到超长,达 400万 token ! 刚刚,“大模型六小强”之一 MiniMax开源最新模型 —— MiniMax-01系列,包含两个模型:基础语言模型MiniMax-Text-01、视觉多模态模型MiniMax-VL-01。 MiniMax-01首次大规模扩展了新型 Lightning Attention架构 ,替代了传统Transformer架构,使模型能够高效处理4M token上下文。 在基准测试中,MiniMax-01性能与顶级闭源模型表现相当。 MiniMax-Text-01性能与前段时间大火的DeepSeek-V3、GPT-4o等打的有来有回: 如下图(c)所示,当上下文超过20万token,MiniMax-Text-01的优势逐渐明显。 在预填充延迟方面也有显著优势,在处理超长上下文时更高效,延迟更低: 网友直呼“难以置信”: 开放权重,拥有400万token的上下文窗口!我原本以为这可能要五年后才会实现。 官方表示,MiniMax-01是为支持之后Agent相关应用而预备的: 因为A ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览