主要观点总结
本文提出一种具有双向结构对齐功能的新型局部-全局融合网络,用于视觉-激光雷达里程计。通过设计基于聚类的局部融合模块和自适应全局融合模块,实现了高效的多模态特征融合。实验表明,该方法在精度和效率方面都达到了先进水平,并可泛化到多模态场景流估算任务。
关键观点总结
关键观点1: 设计了一种基于聚类的局部融合模块,实现了细粒度的多模态特征交换。
该模块将图像视为一组伪点进行聚类,与激光雷达点进行局部融合。通过聚类的方法,保留了原始的三维几何信息,并提高了融合的效率。
关键观点2: 设计了一个自适应全局融合模块,实现了全局信息交互。
该模块将点云转换为伪图像结构,与图像特征进行全局自适应融合。通过圆柱投影,有序地组织点云,提取多层次点特征,实现了有效的特征提取和全局信息交互。
关键观点3: 进行了广泛的实验验证,证明了该方法的有效性。
在KITTI里程计数据集上,与其他先进的视觉-激光雷达里程计方法相比,该方法在平均序列平移RMSE和平均序列旋转均方根误差方面取得了显著的改进。此外,该方法还具有实时应用的潜力。
关键观点4: 该方法可作为一种通用的融合策略,应用于其他多模态任务。
除了视觉-激光雷达里程计,该方法还可以扩展到场景流估算任务,并在FlyingThings3D数据集上取得了优于最近所有SOTA多模态场景流网络的结果。
文章预览
点击下方 卡片 ,关注“ 自动驾驶之心 ”公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 >> 点击进入→ 自动驾驶之心 『 SLAM 』 技术交流群 编辑 | 自动驾驶之心 摘要 视觉数据和激光雷达数据中的信息具有很好的互补性,这些信息来自于图像的精细纹理和点云的大量几何信息。然而,探索有效的视觉-激光雷达融合仍面临挑战,这主要是由于两种模态之间内在的数据结构不一致:图像像素是规则而密集的,但激光雷达点是无序而稀疏的。为解决这一问题,我们提出了一种具有双向结构对齐功能的局部到全局融合网络(DVLO)。为了获得局部融合特征,我们将点投影到图像平面上作为聚类中心,并对每个中心周围的图像像素进行聚类。图像像素被预先组织为伪点,用于图像到点的结构对齐。然后,我们通过圆柱投影将点云转换为伪图像(点到图像
………………………………