文章预览
深度学习作为一项重要技术,引发了人工智能(AI)领域的显著变革,极大地改变了人类的生活方式。作为最具代表性的架构,Transformers赋能了众多先进模型,尤其是包含数十亿参数的大型语言模型(LLMs),成为深度学习的基石。尽管取得了令人瞩目的成就,Transformers仍面临固有的局限性,尤其是在推理时,由于注意力计算的平方复杂度,导致推理过程耗时较长。最近 ,一种名为Mamba的新型架构应运而生,其灵感源自经典的状态空间模型,成为构建基础模型的有力替代方案 。Mamba在保持对序列长度近似线性扩展性的同时,提供了与Transformers相当的建模能力。这一发展引发了越来越多的研究,积极探索Mamba在不同领域中实现卓越性能的潜力。鉴于这一快速发展,亟需一份系统的综述,以整合现有的Mamba赋能模型,并全面理解这一新兴的模型架构。因此
………………………………