专栏名称: 极市平台
极市平台是由深圳极视角推出的专业的视觉算法开发与分发平台,为视觉开发者提供多领域实景训练数据库等开发工具和规模化销售渠道。本公众号将会分享视觉相关的技术资讯,行业动态,在线分享信息,线下活动等。 网站: http://cvmart.net/
今天看啥  ›  专栏  ›  极市平台

Mamba该如何解决「伪影」问题?Mamba®:只需几个寄存器即可成为MVP!

极市平台  · 公众号  ·  · 2024-08-20 22:00
    

主要观点总结

本文介绍了关于视觉Mamba架构的研究,发现其与视觉Transformer存在的类似问题——“伪影”。作者在视觉Mamba架构中引入register tokens来解决这个问题,并命名为Mamba®。实验结果表明,Mamba®在ImageNet分类和ADE20k语义分割任务上取得了显著的性能提升。文章还进行了消融实验,探索了register tokens的数量和设计方案对模型性能的影响。

关键观点总结

关键观点1: 视觉Mamba架构存在的问题

视觉Mamba架构中存在与视觉Transformer类似的“伪影”问题,即一些异常tokens在背景区域具有高的范数,难以区分前景和背景区域。

关键观点2: 引入register tokens的动机

为了缓解视觉Mamba架构中的“伪影”问题,作者引入register tokens。这些tokens在输入序列中均匀插入,有助于捕捉全局表征,并与image tokens有效交互。

关键观点3: Mamba®的设计特点

Mamba®的设计包括稀疏分布的register tokens和用于最终预测的register head。通过拼接操作保留来自所有register head的信息,作为全局表征。

关键观点4: 实验结果

Mamba®在ImageNet分类和ADE20k语义分割任务上取得了显著的性能提升。实验结果表明,Mamba®具有良好的可扩展性,可以在不同规模的模型上实现性能提升。

关键观点5: 消融实验

通过消融实验,作者探索了register tokens的数量和设计方案对模型性能的影响。实验结果表明,register tokens的稀疏分布和均匀插入有助于提高模型性能。


文章预览

↑ 点击 蓝字  关注极市平台 作者丨科技猛兽 编辑丨极市平台 极市导读   与原始的视觉 Mamba 架构相比,Mamba® 的特征图看起来更加清晰,更专注在语义有意义的区域。Mamba® 也获得了更好的性能,比如 Mamba®-B 在 ImageNet 上达到了 82.9% 的精度,优于 Vim-B 的 81.8%。  >> 加入极市CV技术交流群,走在计算机视觉的最前沿 本文目录 1 Mamba®:视觉 Mamba 也需要寄存器 (来自 Johns Hopkins University, University of Florida, UC Santa Cruz) 1 Mamba® 论文解读 1.1 背景:视觉 Mamba 的特征中也存在 "伪影" 1.2 视觉 Mamba 架构 1.3 视觉 Transformer 中的特征 "伪影" 1.4 视觉 Mamba 中的特征 "伪影":高范数异常 tokens 仍旧存在 1.5 视觉 Mamba 需要寄存器 1.6 实验结果 太长不看版 ICLR24 杰出论文|解决监督与自监督视觉Transformer「伪影」问题!只需要再多来几个token 本文发现 Vision Mamba 中存在着与 Visio ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览