文章预览
来源: 自动驾驶Daily 本篇介绍近期由 KargoBot (卡尔动力)和北京交通大学联合发表在顶刊IJCV上的一篇BEV检测和跟踪的文章Cyclic Refiner: Object-Aware Temporal Representation Learning for Multi-View 3D Detection and Tracking. Motivation 从nuScenes的榜单上我们可以看到,当前主流的SOTA BEV检测算法都依赖时序融合。不同的策略诸如BEVFormer中多帧拼接后做Deformable Attention, SparseBEV 中将object query投到不同历史帧做特征采样被引入。然而很少有文章去讨论这些时序融合带来的负面影响。 回顾最近的相关方法,我们观察到这些模型通常以“顺序”的方式构建整个时序融合模型,形成了“多视图输入→提取视图/BEV特征→ 时序融合→检测”的流程 (见图1a的黑色箭头)。 在该策略中,“视图/BEV特征”被用于当前帧的前向推理和下一帧的时序融合。然而,现实世界中复杂的驾驶场景包含各
………………………………