文章预览
OccLLaMA: An Occupancy-Language-Action Generative World Model for Autonomous Driving OccLLaMA是由清华大学和复旦大学提出的一个用于自动驾驶的多任务生成世界模型。这个模型是首个将占用(Occupancy)、语言(Language)和动作(Action)结合起来的模型,旨在通过统一的视觉、语言和动作模态来处理自动驾驶中的多项任务。OccLLaMA使用语义占用作为通用的视觉表示,并通过自回归模型来统一这些模态。 OccLLaMA的核心组件包括一个新颖的场景分词器,它能够有效地离散化和重建语义占用场景,同时考虑到场景的稀疏性和类别不平衡。此外,该模型构建了一个统一的多模态词汇表,涵盖了视觉、语言和动作模态。通过增强大型语言模型(特别是LLaMA),OccLLaMA能够在统一的词汇上执行下一个标记或场景预测,以完成自动驾驶中的多个任务。
………………………………