文章预览
关注 「 AIWalker 」 并 星标 从此AI不迷路 来源 | 集智书童 作者 | 小书童 目前正积极研究如何提升视觉 Transformer (ViTs)的效率。大多数研究都集中在有效Token混合器的研究上,忽略了归一化可能带来的潜在关系。 为了促进多样化的特征学习,作者提出两个组件:一个称为多视图归一化(MVN)的归一化模块和一个称为多视图Token混合器(MVTM)的Token混合器。 MVN通过使用可学习加权和结合批量、层和实例归一化的三种不同归一化特征来整合这些信息。每种归一化方法输出不同的分布,生成不同的特征。 因此,MVN有望向Token混合器提供多样化的模式信息,从而产生有益的协同效应。 MVTM是一种基于卷积的多尺度Token混合器,具有局部、中间和全局滤波器,并且通过在每个阶段配置Token混合器的不同感受野来实现阶段特异性,有效地捕捉视觉模式的不同范围。 作者
………………………………