文章预览
© 作者 | 娄蒙、俞益洲 单位 | 香港大学计算机系 香港大学计算机系俞益洲教授及其研究团队开发了一种 新型的通用视觉 backbone—TransXNet ,该模型同时融合了全局和动态性。其创新之处在于引入了一个即插即用的模块,名为 Dual Dynamic Token Mixer(D-Mixer)。 与以往的卷积和 self-attention 混合模块或全局与局部信息融合模块不同, D-Mixer 专注于动态性的捕捉 。具体来说,D-Mixer 能够利用网络上一层的 feature maps 信息,生成用于提取当前 feature maps 的全局和局部动态权重,从而显著增强模型对多尺度特征的动态表征能力。 为了验证 TransXNet 的性能,研究团队分别在 ImageNet-1K、COCO 2017 和 ADE20K 数据集上进行了广泛的实验,结果表明,TransXNet 作为一个通用视觉模型,展现出了卓越的性能。 论文标题: TransXNet: Learning both global and local dynamics with a dual dyn
………………………………