文章预览
来源: 自动驾驶Daily 理解3D场景的演变对于有效的自动驾驶至关重要。尽管传统方法使用个体实例的运动来建模场景发展,但世界模型作为一种生成框架,用于描述一般场景动态。然而,大多数现有方法采用自回归框架进行下一个标记的预测,这在建模长期时间演变方面存在效率低下的问题。为了解决这个问题,作者提出了一个基于扩散的4D占用生成模型OccSora,以模拟自动驾驶中3D世界的发展。 作者采用4D场景分词器来获取4D占用输入的紧凑离散空间时间表示,并实现长序列占用视频的高质量重建。然后,作者在空间时间表示上学习扩散 Transformer ,并根据轨迹提示生成4D占用。 作者在广泛使用的nuScenes数据集上进行了大量实验,该数据集带有Occ3D占用标注。OccSora能够生成具有真实3D布局和时间一致性的16秒视频,展示了其理解驾驶场景的空间和时间
………………………………