讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战
今天看啥  ›  专栏  ›  大语言模型和具身智体及自动驾驶

Mamba架构的综述

大语言模型和具身智体及自动驾驶  · 公众号  ·  · 2024-08-20 00:11

文章预览

24年8月来自香港理工的论文“A survey of Mamba”。 作为最具代表性的架构,Transformers 赋能众多高级模型,尤其是包含数十亿个参数的大语言模型 (LLM),成为深度学习的基石。尽管取得了令人瞩目的成就,但 Transformers 仍然存在固有的局限性,尤其是注意机制的二次计算复杂度导致推理过于耗时。最近,一种名为 Mamba 的新架构从经典状态空间模型中汲取灵感,成为构建基础模型有前途的替代方案,它提供与 Transformers 相当的建模能力,同时保留序列长度的近线性可扩展性。这引发了越来越多积极探索 Mamba 在不同领域实现出色性能的研究。 本综述对近期与 Mamba 相关的研究进行深入调查,主要涵盖三个方面:基于 Mamba 模型的进展、使 Mamba 适应各种数据的技术以及 Mamba 可以擅长的应用。全面回顾相关研究,重点关注 Mamba 模型的架构设计、数据适应性和应 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览