文章预览
《Make Your ViT-based Multi-view 3D Detectors Faster via Token Compression》(ECCV 2024) GitHub: github.com/DYZhang09/ToC3D 多视图3D检测是自动驾驶等实时要求高的任务中的关键环节。尽管已有研究通过稀疏查询方法来提升3D检测器的效率,但这些方法往往忽略了主干网络,尤其是当使用ViT来提升性能时。ToC3D通过利用历史对象查询作为高质量的前景先验,对其中的3D运动信息进行建模,并通过注意力机制与图像标记进行交互,有效地确定了图像标记的信息密度大小并分割出显著的前景标记。通过引入动态路由器设计,ToC3D能够在压缩信息损失的同时,将更多计算资源加权到重要的前景标记,从而实现更高效的ViT-based多视图3D检测器。 在大规模的nuScenes数据集上的实验结果表明,ToC3D方法几乎可以保持最近SOTA(State Of The Art)的性能,同时实现了高达30%的推理速度提升,并且在提
………………………………