腾讯混元、英伟达都发混合架构模型，Mamba-Transformer要崛起吗？

机器之心 · 公众号 · AI · 2025-03-24 12:34

主要观点总结

本文介绍了Mamba-Transformer混合架构在AI大模型中的应用。Mamba架构能高效捕获序列数据中的复杂依赖关系，与Transformer架构混合后，能降低计算复杂度，减少内存占用，提高训练和推理速度。文章提到了几个采用Mamba-Transformer混合架构的模型，如腾讯的混元T1、英伟达的Nemotron-H等，它们都在保证准确度的同时，提供了更快的推理速度。此外，还有基于Mamba-Transformer混合架构的STORM和VAMBA等模型在多模态任务中表现优异。

关键观点总结

关键观点1: Mamba-Transformer混合架构的优势

Mamba架构能高效处理序列数据，与Transformer混合后，能降低计算复杂度，提高训练和推理速度，具有更好的可扩展性。

关键观点2: 腾讯混元T1模型的特点

采用Hybrid-Mamba-Transformer融合模式，有效降低了传统Transformer结构的计算复杂度，减少了KV-Cache的内存占用，显著降低了训练和推理成本，实现首字秒出，吐字速度最快可达80token/s，在超长文本推理领域展现出独特优势。

关键观点3: 英伟达Nemotron-H模型的特点

采用Mamba-Transformer混合架构，保证了相当乃至更好的准确度的同时，提供了远远更快的推理速度（高达3倍），其他细节包括使用了大规模GPU和训练精度的公布等。

关键观点4: 其他相关模型如STORM和VAMBA的介绍

STORM是一款基于视频的多模态大型语言模型，引入了时间编码器整合视觉和语言表征。VAMBA则是一个用于长视频理解的Mamba-Transformer混合模型，能够高效处理长达一小时的视频。

文章预览

机器之心报道编辑：Panda、张倩在过去的一两年中，Transformer 架构不断面临来自新兴架构的挑战。在众多非 Transformer 架构中，Mamba 无疑是声量较大且后续发展较好的一个。然而，与最初发布时那种仿佛「水火不容」的局面不同，最近一段时间，这两种架构似乎正在走向融合。上周五，腾讯宣布推出自研深度思考模型「混元 T1」正式版，这是一个能秒回、吐字快、擅长超长文处理的强推理模型。而之所以具备这些优势，很大程度上是因为腾讯采用了 Hybrid-Mamba-Transformer 融合架构。这一架构有效降低了传统 Transformer 架构的计算复杂度，减少了 KV-Cache 的内存占用，从而显著降低了训练和推理成本，让混元 T1 实现首字秒出，吐字速度最快可达 80 token/s。与此同时，英伟达也推出了一个采用 Mamba-Transformer 混合架构的模型家族 ——Nemotron-H，其速度是同体 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博