清华&理想 | DRIVEVLM：自动驾驶和大型视觉语言模型的融合（复杂条件下超越所有SOTA）

人工智能AI大模型与汽车自动驾驶 · 公众号 · · 2024-10-08 08:31

文章预览

原标题：DRIVEVLM: The Convergence of Autonomous Driving and Large Vision-Language Models 论文链接：https://arxiv.org/pdf/2402.12289.pdf 项目链接：https://tsinghua-mars-lab.github.io/DriveVLM/ 作者单位：清华大学理想汽车论文思路：城市环境中自动驾驶的主要障碍是理解复杂的长尾场景，例如具有挑战性的道路条件和精细的(delicate)人类行为。本文提出 DriveVLM ，这是一种利用视觉语言模型(Vision-Language Models) (VLMs) 来增强场景理解和规划能力的自动驾驶系统。DriveVLM 集成了独特的思维链(chain-of-thought) (CoT) 模块组合，用于场景描述、场景分析和分层规划。此外，认识到 VLMs 在空间推理和繁重计算要求方面的局限性，本文提出了 DriveVLM-Dual，这是一种混合系统，可以将 DriveVLM 与传统自动驾驶流程的优势相结合。DriveVLM-Dual 实现了强大的空间理解和实时推理速度。对 nuScenes 数据集和 SUP-AD ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博