今天看啥  ›  专栏  ›  自动驾驶Daily

ECCV 2024|LookupViT:谷歌全新通用视觉Transformer块

自动驾驶Daily  · 公众号  ·  · 2024-11-08 07:30
    

文章预览

作者 | 晓飞的算法工程笔记  编辑 | 极市平台 点击下方 卡片 ,关注“ 自动驾驶Daily ”公众号 戳我->  领取近15个自动驾驶方向路线 >> 点击进入→ 自动驾驶Daily技术交流群 微信扫描以下二维码, 『自动驾驶之心知识星球』 , 国内最专业的技术和求职交流社区, 和3500人一起卷赢 导读   本文介绍了谷歌提出的LookupViT,这是一种新型的通用视觉Transformer块,它通过利用图像和视频中的信息稀疏性来降低ViT的推理成本,实现了在保持或提高准确性的同时显著减少计算量。LookupViT通过压缩视觉信息到有限数量的标记,并在这些压缩标记与原始高分辨率标记之间进行信息共享,展示了在多个视觉任务中的有效性,包括图像分类和视频理解。 视觉Transformer( ViT )已成为众多工业级视觉解决方案的事实标准选择。但由于每一层都计算自注意力,这导致其 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览