文章预览
点击下方 卡片 ,关注“ 自动驾驶专栏 ”公众号 自动驾驶干货 ,即可获取 论文链接: https://arxiv.org/pdf/2410.23262 摘要 本文介绍了EMMA:自动驾驶中的端到端多模态模型。EMMA建立在多模态大型语言模型的基础上,它将原始的相机传感器数据直接映射到各种驾驶特定的输出中,包括规划器轨迹、感知目标和道路图元素。EMMA通过将所有非传感器输入(例如导航指令和自车状态)和输出(例如轨迹和3D位置)表示为自然语言文本,最大限度地利用了来自预训练大型语言模型的世界知识。该方法允许EMMA在统一的语言空间中联合处理各种驾驶任务,并且使用任务特定的提示为每项任务生成输出结果。本文通过在nuScenes上实现最先进的运动规划性能以及在Waymo Open Motion Dataset(WOMD)上获得具有竞争力的结果来证明EMMA的有效性。EMMA还在Waymo Open Dataset(WOD)上的主
………………………………