专栏名称: arXiv每日学术速递
跟踪计算机视觉、人工智能、机器学习、NLP、语音识别、量化金融等热门方向学术信息
今天看啥  ›  专栏  ›  arXiv每日学术速递

多视角 Transformer,在图像分类、目标检测以及实例和语义分割实现Top-1 精度 !

arXiv每日学术速递  · 公众号  ·  · 2025-01-13 16:09
    

文章预览

目前正积极研究如何提升视觉 Transformer (ViTs)的效率。大多数研究都集中在有效Token混合器的研究上,忽略了归一化可能带来的潜在关系。 为了促进多样化的特征学习,作者提出两个组件:一个称为多视图归一化(MVN)的归一化模块和一个称为多视图Token混合器(MVTM)的Token混合器。 MVN通过使用可学习加权和结合批量、层和实例归一化的三种不同归一化特征来整合这些信息。每种归一化方法输出不同的分布,生成不同的特征。 因此,MVN有望向Token混合器提供多样化的模式信息,从而产生有益的协同效应。 MVTM是一种基于卷积的多尺度Token混合器,具有局部、中间和全局滤波器,并且通过在每个阶段配置Token混合器的不同感受野来实现阶段特异性,有效地捕捉视觉模式的不同范围。 作者提出了一种新颖的ViT模型——多视角 Transformer (MVFormer),在MetaFormer块中采 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览