文章预览
Mamba 0 1 Mamba作为一种新型的选择性 状态空间模型 方法,在语言建模方面可以媲美Transformer,并且目前已经有了很多结合 Mamba 的研究成果。 那么,今天我就整理了 Mamba经典论文+Mamba大模型/遥感/医学/综述 等论文合集。 论文合集获取方式如下: 添加课程回复 "Mamba" 01.Mamba: Linear-Time Sequence Modeling with Selective State Spaces Transformer 模型中自 注意力机制 的计算量会随着上下文长度的增加呈平方级增长 ,计算效率非常低。在这篇论文中,研究者提出了一种新架构—「选择性状态空间模型」。 02.MoE-Mamba: Effcient Selective State Space Models with Mixture of Experts 状态空间模型(SSM)是近来一种备受关注的 Transformer 替代技术,其优势是能在长上下文任务上实现 线性时间 的推理、并行化训练和强大的性能。本文的研究成果是 MoE-Mamba,是将 Mamba 和混合专家层组合起来的
………………………………