文章预览
点击下方 卡片 ,关注“ 自动驾驶专栏 ”公众号 自动驾驶干货 ,即可获取 论文链接: https://arxiv.org/pdf/2408.10845 摘要 本文介绍了 CoVLA:用于自动驾驶的综合视觉-语言-行为数据集。自动驾驶(特别是在复杂且未预料到的场景中导航)需要复杂的推理和规划能力。虽然多模态大型语言模型(MLLMs)为此提供了有前景的途径,但是它们的使用主要局限于理解复杂的环境背景或者生成高级驾驶指令,而很少有研究将其应用扩展到端到端路径规划。一个主要的研究瓶颈为缺乏包含视觉、语言和行为的大规模标注数据集。为了解决这一问题,本文提出了CoVLA(综合视觉-语言-行为)数据集,这是一个包含超过80个小时的现实世界驾驶视频的广泛数据集。该数据集利用了一种基于自动数据处理和说明文字生成流程的新颖、可扩展的方法来生成精确的驾驶轨迹,并
………………………………