今天看啥  ›  专栏  ›  CSDN

突破Transformer架构,MiniMax 01首次开源,海外开发者再一次被中国模型震惊了

CSDN  · 公众号  ·  · 2025-01-16 12:11
    

文章预览

作者|知风 出品 | CSDN(ID:CSDNnews) 2025开年,MiniMax 又上新了。 继公布全模态模型家族后,时隔5个月,MiniMax再亮相两大模型,且模型权重完全开源。而且与GPT-4o和Claude-3.5-Sonnet性能平起平坐,尤其在上下文窗口方面表现出色,处理能力甚至达到其他顶尖模型的 20 - 32倍。 更重要的是,这两款全新模型扩展了新型Lightning Attention架构, 突破了传统Transformer架构 ,同时也是线性注意力机制的首次大规模实现。 什么概念? 线性注意力机制是对传统注意力机制的优化升级,即将传统注意力机制的二次计算复杂度转变为线性复杂度,可以降低计算的复杂度,提升模型训练速度。早在2019年就有人提出了这一理论,但从来没有人在大规模的模型上实现过。 如今,MiniMax率先找了解题答案,无疑为处理长文本、大规模数据等复杂任务提供了有力支持,实力证明了 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览