专栏名称: 硅星人Pro
硅(Si)是创造未来的基础,欢迎来到这个星球。
今天看啥  ›  专栏  ›  硅星人Pro

激进架构,400万上下文,彻底开源:MiniMax-01有点“Transformer时刻”的味道了

硅星人Pro  · 公众号  · 科技媒体  · 2025-01-15 12:29
    

文章预览

作者 | 王兆洋 邮箱 | wangzhaoyang @pingwest.com “MoE”加上“前所未有大规模投入生产环境的 Lightning Attention”,再加上“从框架到CUDA层面的如软件和工程重构”,会得到什么? 答案是,一个追平了顶级模型能力、且把上下文长度提升到400万token级别的新模型。 1月15日,大模型公司MiniMax正式发布了这款预告已久的新模型系列:MiniMax-01。它包括基础语言大模型MiniMax-Text-01 和在其上集成了一个轻量级ViT模型而开发的视觉多模态大模型 MiniMax-VL-01。 MiniMax-01是一个总参数4560亿,由32个Experts组成的MoE(混合专家)模型,在多个主流评测集上,它的综合能力与GPT-4o和Claude 3.5 sonnet齐平,而同时,它的上下文长度是今天顶尖模型们的20-32倍,并且随着输入长度变长,它也是性能衰减最慢的那个模型。 也就是,这可是实打实的400万token上下文。 这对今天所有大模型 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览