性能超Transformer！Mamba系列论文整理分享

深度之眼 · 公众号 · · 2024-05-30 18:09

文章预览

Mamba 0 1 Mamba作为一种新型的选择性状态空间模型方法，在语言建模方面可以媲美Transformer，并且目前已经有了很多结合 Mamba 的研究成果。那么，今天我就整理了 Mamba经典论文+Mamba大模型/遥感/医学/综述等论文合集。论文合集获取方式如下：添加课程回复 "Mamba" 01.Mamba: Linear-Time Sequence Modeling with Selective State Spaces Transformer 模型中自注意力机制的计算量会随着上下文长度的增加呈平方级增长，计算效率非常低。在这篇论文中，研究者提出了一种新架构—「选择性状态空间模型」。 02.MoE-Mamba: Effcient Selective State Space Models with Mixture of Experts 状态空间模型（SSM）是近来一种备受关注的 Transformer 替代技术，其优势是能在长上下文任务上实现线性时间的推理、并行化训练和强大的性能。本文的研究成果是 MoE-Mamba，是将 Mamba 和混合专家层组合起来的 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

医学论文与统计分析 · 老郑的课程 | 零代码课程来了，不需要R语言，快速构建预测模型

7 月前

清海地产研究 · 【一图速览】房地产行业24年Q2业绩披露日历（0802）丨方正地产建筑刘清海团队

6 月前

车买买 · OLED曲面屏+PPC平台，全新奥迪Q5系列官图发布

5 月前

商科求职 · 华侨城集团2025届管培生校园招聘

3 月前

东方财富证券 · 债市火爆！“收蛋人”狂喜！

1 月前