专栏名称: 将门创投
将门是一家专注于发掘及加速技术创新激活商业价值的创业公司的创投机构。将门旗下设有将门创新服务、将门技术社群以及将门投资基金。关注领域包括机器智能、物联网、自然人机交互、企业计算。
今天看啥  ›  专栏  ›  将门创投

vHeat:基于热传导的视觉表征模型,兼具低复杂度、全局感受野

将门创投  · 公众号  · 科技创业  · 2024-06-18 08:22
    

文章预览

如何突破Transformer的Attention机制?中国科学院大学与鹏城国家实验室提出基于热传导的视觉表征模型vHeat。将图片特征块视为热源,并通过预测热传导率、以物理学热传导原理提取图像特征。相比于基于Attention机制的视觉模型, vHeat同时兼顾了:计算复杂度(1.5次方)、全局感受野、物理可解释性。 vHeat-base模型在高分辨率图像输入时,throughput、GPU显存占用、flops分别是Swin-base模型的3倍、1/4、3/4,在图像分类、目标检测、语义/实例分割等基础下游任务上达到了先进的性能表现。 论文标题: vHeat: Building Vision Models upon Heat Conduction  论文链接: https://arxiv.org/pdf/2405.16555 源码链接: https://github.com/MzeroMiko/vHeat 一、Overview CNN和视觉Transformer(ViT)是当前最主流的两类基础视觉模型。然而,CNN的性能表现受限于局部感受野和固定的卷积核算子。ViT具有全局依赖 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览