OccLLaMA：首个结合3D占用预测、语言、行为构建的生成式世界模型

深蓝AI · 公众号 · · 2024-09-23 17:38

文章预览

导读： OccLLaMA是首个结合3D占用预测作为视觉表征的生成式世界模型。大量实验表明，OccLLaMA在多个任务上实现了不错的性能，包括4D占用预测、运动规划和视觉问答，展示了其作为自动驾驶基础模型的潜力。 ©️【深蓝AI】编译多模态大型语言模型（Multimodal Large Language Models，MLLMs）的兴起促进了它们在自动驾驶中的应用。目前基于MLLMs的方法是通过学习感知与动作之间的直接映射来执行动作，忽略了世界的动态性以及动作与世界动态之间的关系。因此，探索如何构建智能体的世界模型对于具身智能（Embodied AI）的进步至关重要。以自动驾驶为代表的具身智能应用，也不乏有对世界模型的研究。目前，自动驾驶的世界模型主要集中在诸如视频预测、点云预测和占用预测等传感器预测任务上。然而，现有模型无法同时实现场景演变的预测、语言推理和 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博