RenderWorld：基于自监督3D标签的世界模型

自动驾驶专栏 · 公众号 · · 2024-09-26 09:10

文章预览

点击下方卡片，关注“ 自动驾驶专栏 ”公众号自动驾驶干货，即可获取论文链接： https://arxiv.org/pdf/2409.11356 摘要本文介绍了RenderWorld：基于自监督3D标签的世界模型。纯视觉的端到端自动驾驶不仅比激光雷达-视觉融合更具成本效益，还比传统方法更可靠。为了实现经济且鲁棒的纯视觉自动驾驶系统，本文提出了RenderWorld，这是一种纯视觉端到端自动驾驶框架，它通过基于自监督高斯的Img2Occ模块来生成3D占用标签，然后通过AM-VAE对标签进行编码并且使用世界模型进行预测和规划。RenderWorld采用Gaussian Splatting来表示3D场景和渲染2D图像，与基于NeRF的方法相比，大大提高了分割精度并且降低了GPU内存消耗。通过应用AM-VAE分别对空中和非空中体素进行编码，RenderWorld实现了更细粒度的场景元素表示，从而在自回归世界模型的4D占用预测和运动规划方面取 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博