专栏名称: 机器之心
专业的人工智能媒体和产业服务平台
今天看啥  ›  专栏  ›  机器之心

腾讯混元、英伟达都发混合架构模型,Mamba-Transformer要崛起吗?

机器之心  · 公众号  · AI  · 2025-03-24 12:34
    

主要观点总结

本文介绍了Mamba-Transformer混合架构在AI大模型中的应用。Mamba架构能高效捕获序列数据中的复杂依赖关系,与Transformer架构混合后,能降低计算复杂度,减少内存占用,提高训练和推理速度。文章提到了几个采用Mamba-Transformer混合架构的模型,如腾讯的混元T1、英伟达的Nemotron-H等,它们都在保证准确度的同时,提供了更快的推理速度。此外,还有基于Mamba-Transformer混合架构的STORM和VAMBA等模型在多模态任务中表现优异。

关键观点总结

关键观点1: Mamba-Transformer混合架构的优势

Mamba架构能高效处理序列数据,与Transformer混合后,能降低计算复杂度,提高训练和推理速度,具有更好的可扩展性。

关键观点2: 腾讯混元T1模型的特点

采用Hybrid-Mamba-Transformer融合模式,有效降低了传统Transformer结构的计算复杂度,减少了KV-Cache的内存占用,显著降低了训练和推理成本,实现首字秒出,吐字速度最快可达80token/s,在超长文本推理领域展现出独特优势。

关键观点3: 英伟达Nemotron-H模型的特点

采用Mamba-Transformer混合架构,保证了相当乃至更好的准确度的同时,提供了远远更快的推理速度(高达3倍),其他细节包括使用了大规模GPU和训练精度的公布等。

关键观点4: 其他相关模型如STORM和VAMBA的介绍

STORM是一款基于视频的多模态大型语言模型,引入了时间编码器整合视觉和语言表征。VAMBA则是一个用于长视频理解的Mamba-Transformer混合模型,能够高效处理长达一小时的视频。


文章预览

机器之心报道 编辑:Panda、张倩 在过去的一两年中,Transformer 架构不断面临来自新兴架构的挑战。 在众多非 Transformer 架构中,Mamba 无疑是声量较大且后续发展较好的一个。然而,与最初发布时那种仿佛「水火不容」的局面不同,最近一段时间,这两种架构似乎正在走向融合。 上周五,腾讯宣布推出自研深度思考模型「混元 T1」正式版,这是一个能秒回、吐字快、擅长超长文处理的强推理模型。而之所以具备这些优势,很大程度上是因为腾讯采用了 Hybrid-Mamba-Transformer 融合架构。这一架构有效降低了传统 Transformer 架构的计算复杂度,减少了 KV-Cache 的内存占用,从而显著降低了训练和推理成本,让混元 T1 实现首字秒出,吐字速度最快可达 80 token/s。 与此同时,英伟达也推出了一个采用 Mamba-Transformer 混合架构的模型家族 ——Nemotron-H,其速度是同体 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览