ECCV 2024｜LookupViT：谷歌全新通用视觉Transformer块

自动驾驶Daily · 公众号 · · 2024-11-08 07:30

文章预览

作者 | 晓飞的算法工程笔记编辑 | 极市平台点击下方卡片，关注“ 自动驾驶Daily ”公众号戳我-> 领取近15个自动驾驶方向路线 >> 点击进入→ 自动驾驶Daily技术交流群微信扫描以下二维码，『自动驾驶之心知识星球』，国内最专业的技术和求职交流社区，和3500人一起卷赢导读本文介绍了谷歌提出的LookupViT，这是一种新型的通用视觉Transformer块，它通过利用图像和视频中的信息稀疏性来降低ViT的推理成本，实现了在保持或提高准确性的同时显著减少计算量。LookupViT通过压缩视觉信息到有限数量的标记，并在这些压缩标记与原始高分辨率标记之间进行信息共享，展示了在多个视觉任务中的有效性，包括图像分类和视频理解。视觉Transformer（ ViT ）已成为众多工业级视觉解决方案的事实标准选择。但由于每一层都计算自注意力，这导致其 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博