专栏名称: 智驾实验室
欢迎关注“智驾实验室”!本公众号专注于自动驾驶领域,为您带来世界模型的最新研究,多模态大模型的深入解析,以及多模态大模型在自动驾驶领域的应用与落地。在这里,您可以了解到自动驾驶技术的最新动态,洞察行业趋势,与我们一起探索未来出行的无限可能。
目录
相关文章推荐
今天看啥  ›  专栏  ›  智驾实验室

西交大 & 北理工 联合提出 Atlas 模型 | 创新3D视觉-语言融合,为自动驾驶带来革命性提升 !

智驾实验室  · 公众号  ·  · 2024-06-13 08:00
    

文章预览

ADAS  Laboratory 点击上方 蓝字 关注  智驾实验室 扫描上方二维码,加入【 智驾实验室 】交流群, 获取更多内容和资料 自动驾驶(AD)任务的快速发展转向了端到端的方式,特别是在利用视觉-语言模型(VLMs)方面,这些模型集成了强大的逻辑推理和认知能力,以实现全面的端到端规划。然而,这些基于VLM的方法往往将2D视觉标记器和大型语言模型(LLM)集成用于自我车辆规划,这缺少了可靠规划基石的3D几何先验。 自然地,这个观察提出了一个关键问题: 2D标记化的LLM能否准确感知3D环境? 作者评估了当前基于VLM的方法在3D目标检测、矢量化地图构建和环境描述方面的表现,不幸的是,答案似乎是 否定的 。换句话说,2D标记化的LLM无法提供可靠的自动驾驶。 为此,作者引入了类似DETR的3D感知器作为3D标记器,它们通过一层线性投影器与LLM连接。这 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览
推荐文章