实现LiDAR和多视角摄像头数据的对齐、可控X-DRIVE：用于驾驶场景的跨模态一致多传感器数据合成

3D视觉之心 · 公众号 · · 2024-11-12 07:00

文章预览

作者 | Yichen Xie等编辑 | Ai fighting 点击下方卡片，关注“ 3D视觉之心 ”公众号第一时间获取 3D视觉干货 >> 点击进入→ 3D视觉之心技术交流群 Abstract 近年来，扩散模型在合成驾驶场景中的LiDAR点云或摄像头图像数据方面取得了进展。尽管这些模型在单一模态数据的边际分布建模方面取得成功，但对不同模态之间互相依赖关系的探索仍然不足，而这种依赖关系能够更好地描述复杂的驾驶场景。为了解决这一问题，我们提出了一个新框架，称为X-DRIVE，通过双分支潜在扩散模型架构来建模点云和多视角图像的联合分布。考虑到两种模态的几何空间差异，X-DRIVE在合成每种模态时都基于另一模态的对应局部区域，以确保更好的对齐和真实感。为了解决去噪过程中的空间模糊问题，我们设计了基于极线的跨模态条件模块，以自适应学习跨模态局部对应关系 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博