专栏名称: arXiv每日学术速递
跟踪计算机视觉、人工智能、机器学习、NLP、语音识别、量化金融等热门方向学术信息
今天看啥  ›  专栏  ›  arXiv每日学术速递

融合 Mamba 与 Transformer 优势, R2Gen-Mamba 从卷积到全连接层的特征提取与分类 !

arXiv每日学术速递  · 公众号  ·  · 2024-11-12 13:56

文章预览

选择性状态空间模型(SSMs),如Mamba(Gu & Dao,2023),在捕捉一维序列数据中的长期依赖性方面表现出色,但其应用于2D视觉任务仍面临挑战。当前的视觉SSM通常将图像转换为一维序列,并采用各种扫描模式来包含局部空间依赖性。 然而,这些方法在有效捕捉复杂图像空间结构和由于扫描路径加长导致的计算成本增加方面存在局限性。 为解决这些问题,作者提出了一种新颖的方法Spatial-Mamba,它直接在状态空间中建立邻域连通性。 作者不再仅依赖顺序状态转换,而是引入了一个_结构感知状态融合_方程,该方程利用膨胀卷积来捕捉图像空间结构依赖性,显著增强了视觉上下文信息的 Stream 。 Spatial-Mamba分为三个阶段:单向扫描的初始状态计算,通过结构感知状态融合获取空间上下文,以及使用观察方程计算最终状态。作者的理论分析表明,Spatial-Mam ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览