文章预览
状态空间模型(SSM)的最新进展已显示出在以次平方复杂度建模长距离依赖关系方面的有效性能。然而,基于纯SSM的模型仍然面临稳定性问题,并且在计算机视觉任务上实现最优性能的挑战。作者的论文针对基于SSM的模型在计算机视觉中的扩展挑战,特别是大型模型在稳定性和效率方面的问题。 为了解决这一点,作者引入了一种调制组Mamba层,该层将输入通道分为四组,并分别对每组应用作者提出的基于SSM的高效视觉单选扫描(VSSS)块,每个VSSS块在一个四空间方向上进行扫描。调制组Mamba层还将四个VSSS块包装到一个通道调制算子中,以改进跨通道通信。 此外,作者引入了一种基于蒸馏的训练目标来稳定大型模型的训练,从而带来一致的性能提升。作者全面的实验验证了所提出贡献的优势,在ImageNet-1K图像分类、目标检测、MS-COCO上的实例分割以及A
………………………………