专栏名称: 吃果冻不吐果冻皮
专注于AI工程化(LLM、MLOps、LLMOps、RAG、Agent)落地。
今天看啥  ›  专栏  ›  吃果冻不吐果冻皮

MiniMax-01 技术报告深度解读与 DeepSeek-V3 对比

吃果冻不吐果冻皮  · 公众号  ·  · 2025-01-19 21:25
    

文章预览

原文:https://zhuanlan.zhihu.com/p/18653363414 一、MiniMax-01 概述 这篇技术博客介绍了 MiniMax-01 系列模型,包括 MiniMax-Text-01(文本模型)和 MiniMax-VL-01(多模态模型 )。该系列模型旨在突破现有大语言模型  (LLM ) 和视觉语言模型  (VLM) 的性能瓶颈,在处理长上下文方面展现出显著优势。 二、MiniMax-01 的核心创新点 1. 线性注意力机制 与高效扩展 线性注意力机制的选择: MiniMax-01 选择了线性注意力机制,而非传统 Transformer 架构中的 softmax 注意力机制。这是因为线性注意力机制在理论上具有线性时间复杂度 ,更适合处理长序列 。 具体来说,MiniMax-01 采用的是 闪电注意力 (Lightning Attention),这是对线性注意力机制的一种 I/O 感知优化实现,旨在解决现有线性注意力机制中计算效率的主要瓶颈——因果语言建模中的缓慢累积和 (cumsum) 操作。 核心创新:将注意 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览