文章预览
24年8月来自Turing公司、东京大学、筑波大学、庆应义塾大学的研究所和日本信息学研究所的论文“CoVLA: Comprehensive Vision-Language-Action Dataset for Autonomous Driving”。 自动驾驶,特别是在复杂和意想不到的场景中导航,需要复杂的推理和规划能力。虽然多模态大语言模型 (MLLM) 为此提供了一条有希望的途径,但它们的用途主要限于理解复杂的环境背景或生成高级驾驶命令,很少有研究将其应用扩展到端到端路径规划。一个主要的研究瓶颈是缺乏涵盖视觉、语言和动作的大规模标注数据集。为了解决这个问题,建立 CoVLA(综合视觉-语言-动作)数据集,超过 80 小时的真实世界驾驶视频。该数据集利用一种基于自动数据处理和字幕生成流程的可扩展方法,生成准确的驾驶轨迹,并搭配驾驶环境和操作的详细自然语言描述。这种方法利用原始的车载传感器数据
………………………………