文章预览
24年8月来自香港理工的论文“A survey of Mamba”。 作为最具代表性的架构,Transformers 赋能众多高级模型,尤其是包含数十亿个参数的大语言模型 (LLM),成为深度学习的基石。尽管取得了令人瞩目的成就,但 Transformers 仍然存在固有的局限性,尤其是注意机制的二次计算复杂度导致推理过于耗时。最近,一种名为 Mamba 的新架构从经典状态空间模型中汲取灵感,成为构建基础模型有前途的替代方案,它提供与 Transformers 相当的建模能力,同时保留序列长度的近线性可扩展性。这引发了越来越多积极探索 Mamba 在不同领域实现出色性能的研究。 本综述对近期与 Mamba 相关的研究进行深入调查,主要涵盖三个方面:基于 Mamba 模型的进展、使 Mamba 适应各种数据的技术以及 Mamba 可以擅长的应用。全面回顾相关研究,重点关注 Mamba 模型的架构设计、数据适应性和应
………………………………