专栏名称: 深蓝AI
专注于人工智能在线教育
目录
今天看啥  ›  专栏  ›  深蓝AI

OccLLaMA:首个结合3D占用预测、语言、行为构建的生成式世界模型

深蓝AI  · 公众号  ·  · 2024-09-23 17:38

文章预览

导读: OccLLaMA是首个结合3D占用预测作为视觉表征的生成式世界模型。大量实验表明,OccLLaMA在多个任务上实现了不错的性能,包括4D占用预测、运动规划和视觉问答,展示了其作为自动驾驶基础模型的潜力。 ©️【深蓝AI】编译 多模态大型语言模型(Multimodal Large Language Models,MLLMs)的兴起促进了它们在自动驾驶中的应用。目前基于MLLMs的方法是通过学习感知与动作之间的直接映射来执行动作,忽略了世界的动态性以及动作与世界动态之间的关系。因此,探索如何构建智能体的世界模型对于具身智能(Embodied AI)的进步至关重要。 以自动驾驶为代表的具身智能应用,也不乏有对世界模型的研究。目前,自动驾驶的世界模型主要集中在诸如视频预测、点云预测和占用预测等传感器预测任务上。然而,现有模型无法同时实现场景演变的预测、语言推理和 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览