专栏名称: 集智书童
书童带你领略视觉前沿之美,精选科研前沿、工业实用的知识供你我进步与学习!
今天看啥  ›  专栏  ›  集智书童

性能超Transformer!Mamba系列论文整理分享

集智书童  · 公众号  ·  · 2024-05-21 09:00
    

文章预览

Mamba 0 1 Mamba作为一种新型的选择性状态空间模型方法,在语言建模方面可以媲美Transformer,并且目前已经有了很多结合Mamba的研究成果。 那么,今天我就整理了 Mamba经典论文+Mamba大模型/遥感/医学/综述 等论文合集。 论文合集获取方式如下: 添加课程回复 "Mamba" 01.Mamba: Linear-Time Sequence Modeling with Selective State Spaces Transformer 模型中自注意力机制的计算量会随着上下文长度的增加呈平方级增长 ,计算效率非常低。在这篇论文中,研究者提出了一种新架构—「选择性状态空间模型」。    02.MoE-Mamba: Effcient Selective State Space Models with Mixture of Experts 状态空间模型(SSM)是近来一种备受关注的 Transformer 替代技术,其优势是能在长上下文任务上实现线性时间的推理、并行化训练和强大的性能。本文的研究成果是 MoE-Mamba,是将 Mamba 和混合专家层组合起来的模型。M ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览