文章预览
如何突破Transformer的Attention机制?中国科学院大学与鹏城国家实验室提出基于热传导的视觉表征模型vHeat。将图片特征块视为热源,并通过预测热传导率、以物理学热传导原理提取图像特征。相比于基于Attention机制的视觉模型, vHeat同时兼顾了:计算复杂度(1.5次方)、全局感受野、物理可解释性。 vHeat-base模型在高分辨率图像输入时,throughput、GPU显存占用、flops分别是Swin-base模型的3倍、1/4、3/4,在图像分类、目标检测、语义/实例分割等基础下游任务上达到了先进的性能表现。 论文标题: vHeat: Building Vision Models upon Heat Conduction 论文链接: https://arxiv.org/pdf/2405.16555 源码链接: https://github.com/MzeroMiko/vHeat 一、Overview CNN和视觉Transformer(ViT)是当前最主流的两类基础视觉模型。然而,CNN的性能表现受限于局部感受野和固定的卷积核算子。ViT具有全局依赖
………………………………