注册登录

专栏名称: 吃果冻不吐果冻皮

专注于AI工程化（LLM、MLOps、LLMOps、RAG、Agent）落地。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

目录

相关文章推荐

潇湘晨报 · 长沙止间书店发布停业公告 · 10 小时前

湖南日报 · 湖南多地纷纷宣布：春节期间，免予处罚！ · 昨天

湖南日报 · 湖南首次！就在今晚！ · 2 天前

潇湘晨报 · 王菲现身蛇年央视春晚彩排！网友：久违了！ · 3 天前

今天看啥 › 专栏 › 吃果冻不吐果冻皮

MiniMax-01 技术报告深度解读与 DeepSeek-V3 对比

吃果冻不吐果冻皮 · 公众号 · · 2025-01-19 21:25

文章预览

原文：https://zhuanlan.zhihu.com/p/18653363414 一、MiniMax-01 概述这篇技术博客介绍了 MiniMax-01 系列模型，包括 MiniMax-Text-01（文本模型）和 MiniMax-VL-01（多模态模型）。该系列模型旨在突破现有大语言模型 (LLM ) 和视觉语言模型 (VLM) 的性能瓶颈，在处理长上下文方面展现出显著优势。二、MiniMax-01 的核心创新点 1. 线性注意力机制与高效扩展线性注意力机制的选择： MiniMax-01 选择了线性注意力机制，而非传统 Transformer 架构中的 softmax 注意力机制。这是因为线性注意力机制在理论上具有线性时间复杂度，更适合处理长序列。具体来说，MiniMax-01 采用的是闪电注意力 (Lightning Attention)，这是对线性注意力机制的一种 I/O 感知优化实现，旨在解决现有线性注意力机制中计算效率的主要瓶颈——因果语言建模中的缓慢累积和 (cumsum) 操作。核心创新：将注意 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

潇湘晨报 · 长沙止间书店发布停业公告

10 小时前

湖南日报 · 湖南多地纷纷宣布：春节期间，免予处罚！

昨天

湖南日报 · 湖南首次！就在今晚！

2 天前

潇湘晨报 · 王菲现身蛇年央视春晚彩排！网友：久违了！

3 天前

手游出海 · MicroFun Limited旗下出海伊拉克模拟类游戏《Seaside Escape》游戏,在海外市场的收入表现非常出色

6 月前

品橙旅游 · 景区“招聘野人”年轻人争相报名每日上百咨询电话订单量增长近2倍

6 月前

医学界 · “布拉氏酵母菌+蒙脱石散”，这个联用合理吗？

5 月前

关于移动版 · Py中国 · RSS之家 · CodingPro · Code · Link之家 · 卧龙AI搜索 · 小百科 · 51好读 · 小百科（海外） · Link管理

今天看啥 - 微信公众号rss订阅, 微信rss, 稳定的RSS源

© 2024 ~ 沪ICP备11025650号