文章预览
导读: OccLLaMA是首个结合3D占用预测作为视觉表征的生成式世界模型。大量实验表明,OccLLaMA在多个任务上实现了不错的性能,包括4D占用预测、运动规划和视觉问答,展示了其作为自动驾驶基础模型的潜力。 ©️【深蓝AI】编译 多模态大型语言模型(Multimodal Large Language Models,MLLMs)的兴起促进了它们在自动驾驶中的应用。目前基于MLLMs的方法是通过学习感知与动作之间的直接映射来执行动作,忽略了世界的动态性以及动作与世界动态之间的关系。因此,探索如何构建智能体的世界模型对于具身智能(Embodied AI)的进步至关重要。 以自动驾驶为代表的具身智能应用,也不乏有对世界模型的研究。目前,自动驾驶的世界模型主要集中在诸如视频预测、点云预测和占用预测等传感器预测任务上。然而,现有模型无法同时实现场景演变的预测、语言推理和
………………………………