【OccLLaMA：基于大语言模型的占据预测】

计算机视觉之路 · 公众号 · · 2024-09-12 14:25

文章预览

OccLLaMA: An Occupancy-Language-Action Generative World Model for Autonomous Driving OccLLaMA是由清华大学和复旦大学提出的一个用于自动驾驶的多任务生成世界模型。这个模型是首个将占用（Occupancy）、语言（Language）和动作（Action）结合起来的模型，旨在通过统一的视觉、语言和动作模态来处理自动驾驶中的多项任务。OccLLaMA使用语义占用作为通用的视觉表示，并通过自回归模型来统一这些模态。 OccLLaMA的核心组件包括一个新颖的场景分词器，它能够有效地离散化和重建语义占用场景，同时考虑到场景的稀疏性和类别不平衡。此外，该模型构建了一个统一的多模态词汇表，涵盖了视觉、语言和动作模态。通过增强大型语言模型（特别是LLaMA），OccLLaMA能够在统一的词汇上执行下一个标记或场景预测，以完成自动驾驶中的多个任务。 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

一条漫画 · 00后接陌生电话，我以为这个行为很小众的...

昨天

鼠绘情报站 · 有录影带的质感了！假如《美少女战士》是一部80年代的老电影……

3 天前

一条漫画 · 金毛：请苍天，辨忠奸！

1 周前

一条漫画 · 当船员真好，实现海鲜自由~

1 周前

一条漫画 · 一男一女在民z局搞这个合适吗？本来想祝新婚快乐的，现在只能祝你们离婚幸福了......

1 周前

图虫APP · 快速看懂2024 vivo影像盛典特别活动

3 月前