V2X-VLM：基于大型视觉语言模型的端到端V2X协同自动驾驶

焉知汽车 · 公众号 · · 2024-08-21 22:07

文章预览

来源 | 自动驾驶专栏论文链接：https://arxiv.org/pdf/2408.09251 摘要本文介绍了V2X-VLM：基于大型视觉语言模型的端到端V2X协同自动驾驶。自动驾驶的进展越来越着重于端到端（E2E）系统，其管理从环境感知到车辆导航和控制的全方位任务。本文引入了V2X-VLM，这是一种创新的E2E车辆-基础设施协同自动驾驶（VICAD）框架，其使用大型视觉语言模型（VLMs）。 V2X-VLM旨在通过融合来自车载相机、基础设施传感器和文本信息的数据，以增强情景感知、决策和最终轨迹规划。 VLM的全面多模态数据融合的优势使其能够在复杂且动态的驾驶场景中实现精确且安全的E2E轨迹规划。在DAIR-V2X数据集上的验证表明，V2X-VLM在协同自动驾驶方面优于现有的最先进方法。主要贡献本文的主要贡献为如下三方面： 1）本文提出了一种由E2E VICAD框架支持的大型视觉语言模型，其增 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博