突破Transformer架构，MiniMax 01首次开源，海外开发者再一次被中国模型震惊了

CSDN · 公众号 · · 2025-01-16 12:11

文章预览

作者｜知风出品 | CSDN（ID：CSDNnews） 2025开年，MiniMax 又上新了。继公布全模态模型家族后，时隔5个月，MiniMax再亮相两大模型，且模型权重完全开源。而且与GPT-4o和Claude-3.5-Sonnet性能平起平坐，尤其在上下文窗口方面表现出色，处理能力甚至达到其他顶尖模型的 20 - 32倍。更重要的是，这两款全新模型扩展了新型Lightning Attention架构，突破了传统Transformer架构，同时也是线性注意力机制的首次大规模实现。什么概念？线性注意力机制是对传统注意力机制的优化升级，即将传统注意力机制的二次计算复杂度转变为线性复杂度，可以降低计算的复杂度，提升模型训练速度。早在2019年就有人提出了这一理论，但从来没有人在大规模的模型上实现过。如今，MiniMax率先找了解题答案，无疑为处理长文本、大规模数据等复杂任务提供了有力支持，实力证明了 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

超级学爸 · 营养又好吃的橙子来了！奉节脐橙、中华血橙

昨天

科学家庭育儿 · 几十块穿出了100+质感！亲肤舒适保暖，这条加绒裤孩子随意造！

昨天

常青藤爸爸 · 连着让小小常看了两周动画片，这个知识空白总算补上了

昨天

科学家庭育儿 · 29.9元起！“卷王”A类龙之涵童装秋冬款，年末清仓，手慢无

2 天前

科学家庭育儿 · 这波 “ 新政策 ” 太猛了，之后英语卷什么，教育部已经打了明牌

2 天前

哲学王读书 · “北京老哥越说越激动…”

6 月前

中国化学十三化建 · 李小平到中国神华煤制油化工有限公司鄂尔多斯煤制油分公司拜访交流

6 月前

知产前沿 · 案件快讯 | 员工离职后拒绝交还客户微信群，法院判赔8000元；直播带货“产品测评”，不客观“踩一捧一”构成不正当竞争

4 月前