边缘AI革命！MicroViT 革新轻量视觉Transformer：3.6倍速+40%能效提升，突破边缘部署极限

集智书童 · 公众号 · · 2025-02-19 09:00

文章预览

点击下方卡片，关注「集智书童」公众号点击加入👉 「集智书童」交流群导读视觉Transformer（ViT）在各种计算机视觉任务中展现了最先进的性能，但其高计算需求使其在资源有限的边缘设备上不切实际。本文提出了MicroViT，这是一种轻量级的视觉Transformer架构，通过显著降低计算复杂度，同时保持高精度，针对边缘设备进行了优化。MicroViT的核心是高效单头注意力（ESHA）机制，该机制利用分组卷积来减少特征冗余，并仅处理部分通道，从而减轻了自注意力机制的负担。MicroViT采用多阶段MetaFormer架构进行设计，通过堆叠多个MicroViT编码器来提升效率和性能。在ImageNet-1K和COCO数据集上的全面实验表明，MicroViT在保持与MobileViT系列相当精度的同时，显著提高了3.6倍的推理速度，并提高了40%的效率，减少了能耗，使其适用于移动和边缘设备等资源受限 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博