专栏名称: 深蓝AI
专注于人工智能在线教育
今天看啥  ›  专栏  ›  深蓝AI

自动驾驶的“三维进化” :跨越平面的OmniDrive如何在3D空间实现端到端的决策规划?

深蓝AI  · 公众号  ·  · 2024-07-26 17:38

文章预览

前言 / You need to know 本篇文章由原paper一作 Shihao Wang(王仕豪) 全权翻译分享,王仕豪为北京理工大学硕士毕业生,主要从事计算机视觉和自动驾驶相关工作。他提出了StreamPETR,Far3D和OmniDrive等方法,并在nuScenes的检测和跟踪榜单上多次获得第一名。 导读: 大语言模型在二维视觉任务中展现了出色的推理能力,它们在端到端自动驾驶中的应用已经呈现出丰富的可能性。然而,将这些模型从二维空间理解扩展到三维空间是一个重要挑战。对于自动驾驶车辆,对于三维世界理解的精确度会直接影响到车辆的决策规划能力。虽然以往的研究已经尝试地将大语言模型应用于自动驾驶,但仍然需要一种全面和原则性的方法,将视觉语言模型的二维理解和推理能力完全扩展到复杂的三维场景中。本次我们将介绍OmniDrive解决方案,主要分为三个部分:三维VLM数据集 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览