港科&理想 | VLM-E2E：多模态注意力融合增强端到端自动驾驶

自动驾驶之心 · 公众号 · · 2025-02-28 07:30

文章预览

作者 | 自动驾驶专栏编辑 | 自动驾驶专栏点击下方卡片，关注“ 自动驾驶之心 ”公众号戳我-> 领取自动驾驶近15个方向学习路线 >>点击进入→ 自动驾驶之心『端到端自动驾驶』技术交流群本文只做学术分享，如有侵权，联系删文论文链接： https://arxiv.org/pdf/2502.18042 摘要本文介绍了VLM-E2E：通过多模态驾驶员注意力融合来增强端到端自动驾驶。人类驾驶员通过利用丰富的注意力语义来熟练地在复杂场景中导航，但是目前的自动驾驶系统难以复制这种能力，因为它们在将2D观测转换到3D空间时往往会丢失关键的语义信息。从这个意义而言，这阻碍了它们在动态且复杂的环境中的有效部署。利用视觉语言模型（VLMs）卓越的场景理解和推理能力，本文提出了VLM-E2E，这是一种使用VLMs通过提供注意力线索来增强训练的新框架。本文方法将文本 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博