今天看啥  ›  专栏  ›  灵度智能

同济王瀚漓教授团队提出使用3D视觉语言模型生成式规划用于端到端自动驾驶

灵度智能  · 公众号  ·  · 2025-01-20 12:10
    

文章预览

  摘要 自动驾驶是一项具有挑战性的任务,需要感知和理解周围环境以确保安全轨迹规划。尽管现有的基于视觉的端到端模型已经取得了有希望的结果,但这些方法仍然面临视觉理解、决策推理和场景泛化的挑战。为了解决这些问题,提出了一种名为GPVL的生成式规划与3D视觉语言预训练模型,用于端到端自动驾驶。所提出的范式有两个显著方面。一方面,设计了一个3D视觉语言预训练模块,以弥合鸟瞰图中视觉感知和语言理解之间的差距。另一方面,引入了一个跨模态语言模型,以自回归方式生成整体驾驶决策和精细轨迹,结合了感知和导航信息。在具有挑战性的nuScenes数据集上的实验表明,所提出的方案与其他最先进的方法相比表现出色。此外,所提出的GPVL在处理各种场景中的高级指令时表现出强大的泛化能力和实时潜力。相信GPVL的有效性、鲁 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览