文章预览
原标题:DRIVEVLM: The Convergence of Autonomous Driving and Large Vision-Language Models 论文链接:https://arxiv.org/pdf/2402.12289.pdf 项目链接:https://tsinghua-mars-lab.github.io/DriveVLM/ 作者单位:清华大学 理想汽车 论文思路: 城市环境中自动驾驶的主要障碍是理解复杂的长尾场景,例如具有挑战性的道路条件和精细的(delicate)人类行为。本文提出 DriveVLM ,这是一种利用视觉语言模型(Vision-Language Models) (VLMs) 来增强场景理解和规划能力的自动驾驶系统。DriveVLM 集成了独特的思维链(chain-of-thought) (CoT) 模块组合,用于场景描述、场景分析和分层规划。此外,认识到 VLMs 在空间推理和繁重计算要求方面的局限性,本文提出了 DriveVLM-Dual,这是一种混合系统,可以将 DriveVLM 与传统自动驾驶流程的优势相结合。DriveVLM-Dual 实现了强大的空间理解和实时推理速度。对 nuScenes 数据集和 SUP-AD
………………………………