文章预览
作者|知风 出品 | CSDN(ID:CSDNnews) 2025开年,MiniMax 又上新了。 继公布全模态模型家族后,时隔5个月,MiniMax再亮相两大模型,且模型权重完全开源。而且与GPT-4o和Claude-3.5-Sonnet性能平起平坐,尤其在上下文窗口方面表现出色,处理能力甚至达到其他顶尖模型的 20 - 32倍。 更重要的是,这两款全新模型扩展了新型Lightning Attention架构, 突破了传统Transformer架构 ,同时也是线性注意力机制的首次大规模实现。 什么概念? 线性注意力机制是对传统注意力机制的优化升级,即将传统注意力机制的二次计算复杂度转变为线性复杂度,可以降低计算的复杂度,提升模型训练速度。早在2019年就有人提出了这一理论,但从来没有人在大规模的模型上实现过。 如今,MiniMax率先找了解题答案,无疑为处理长文本、大规模数据等复杂任务提供了有力支持,实力证明了
………………………………