专栏名称: 深度之眼
入行人工智能,学算法公式,写毕业论文,看经典书籍,刷全球公开课,就来深度之眼
目录
相关文章推荐
今天看啥  ›  专栏  ›  深度之眼

性能超Transformer!Mamba系列论文整理分享

深度之眼  · 公众号  ·  · 2024-05-30 18:09
    

文章预览

Mamba 0 1 Mamba作为一种新型的选择性 状态空间模型 方法,在语言建模方面可以媲美Transformer,并且目前已经有了很多结合 Mamba 的研究成果。 那么,今天我就整理了 Mamba经典论文+Mamba大模型/遥感/医学/综述 等论文合集。 论文合集获取方式如下: 添加课程回复 "Mamba" 01.Mamba: Linear-Time Sequence Modeling with Selective State Spaces Transformer 模型中自 注意力机制 的计算量会随着上下文长度的增加呈平方级增长 ,计算效率非常低。在这篇论文中,研究者提出了一种新架构—「选择性状态空间模型」。    02.MoE-Mamba: Effcient Selective State Space Models with Mixture of Experts 状态空间模型(SSM)是近来一种备受关注的 Transformer 替代技术,其优势是能在长上下文任务上实现 线性时间 的推理、并行化训练和强大的性能。本文的研究成果是 MoE-Mamba,是将 Mamba 和混合专家层组合起来的 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览