文章预览
点击下方 卡片 ,关注“ 自动驾驶专栏 ”公众号 自动驾驶干货 ,即可获取 论文链接: https://arxiv.org/pdf/2409.11356 摘要 本文介绍了RenderWorld:基于自监督3D标签的世界模型 。纯视觉的端到端自动驾驶不仅比激光雷达-视觉融合更具成本效益,还比传统方法更可靠。为了实现经济且鲁棒的纯视觉自动驾驶系统,本文提出了RenderWorld,这是一种纯视觉端到端自动驾驶框架,它通过基于自监督高斯的Img2Occ模块来生成3D占用标签,然后通过AM-VAE对标签进行编码并且使用世界模型进行预测和规划。RenderWorld采用Gaussian Splatting来表示3D场景和渲染2D图像,与基于NeRF的方法相比,大大提高了分割精度并且降低了GPU内存消耗。通过应用AM-VAE分别对空中和非空中体素进行编码,RenderWorld实现了更细粒度的场景元素表示,从而在自回归世界模型的4D占用预测和运动规划方面取
………………………………