今天看啥  ›  专栏  ›  古月居

经典文献阅读之--DriveVLM(自动驾驶与大型视觉语言模型的融合)

古月居  · 公众号  ·  · 2024-09-26 18:40

文章预览

0.简介 本文介绍了 DriveVLM :自动驾驶与大型视觉语言模型的融合。城市环境中自动驾驶的一个主要障碍是理解复杂且长尾的场景,例如具有挑战性的路况和微妙的人类行为。为此,本文引入了DriveVLM,这是一种利用视觉语言模型(VLMs)增强场景理解和规划能力的自动驾驶系统。DriveVLM集成了用于场景描述、场景分析和分层规划的思维链(CoT)模块的独特组合。此外,意识到VLM在空间推理和繁重的计算需求方面的局限性,本文提出了DriveVLM-Dual,这是一种将DriveVLM的优势与传统自动驾驶流程相结合的混合系统。DriveVLM-Dual实现了强大的空间理解和实时的推理速度。 1.主要贡献 在nuScenes数据集和我们的数据集上进行的广泛实验展示了DriveVLM的优越性,尤其是在少样本情况下。此外,DriveVLM-Dual超越了最先进的端到端运动规划方法。总结本文的贡献有四个方面 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览