CoVLA：用于自动驾驶的综合视觉-语言-行为数据集

自动驾驶专栏 · 公众号 · · 2024-10-11 10:01

文章预览

点击下方卡片，关注“ 自动驾驶专栏 ”公众号自动驾驶干货，即可获取论文链接： https://arxiv.org/pdf/2408.10845 摘要本文介绍了 CoVLA：用于自动驾驶的综合视觉-语言-行为数据集。自动驾驶（特别是在复杂且未预料到的场景中导航）需要复杂的推理和规划能力。虽然多模态大型语言模型（MLLMs）为此提供了有前景的途径，但是它们的使用主要局限于理解复杂的环境背景或者生成高级驾驶指令，而很少有研究将其应用扩展到端到端路径规划。一个主要的研究瓶颈为缺乏包含视觉、语言和行为的大规模标注数据集。为了解决这一问题，本文提出了CoVLA（综合视觉-语言-行为）数据集，这是一个包含超过80个小时的现实世界驾驶视频的广泛数据集。该数据集利用了一种基于自动数据处理和说明文字生成流程的新颖、可扩展的方法来生成精确的驾驶轨迹，并 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

网络法实务圈 · 网络主播与经纪公司之间发生纠纷：谁该为主播高价违约金买单？

5 天前

紫金天风期货研究所 · 双焦：焦煤上游库存加速累积

5 天前

紫金天风期货研究所 · 双焦：焦煤上游库存加速累积

5 天前

小纽美国法律咨询 · 有了H-1B办EB-2/EB-3绿卡铁定稳了？PERM打广告结果公司真的招到新人了？PERM申请避坑指南！

5 天前

知产前沿 · 冯超等 | 数字音乐“独家版权+转授权”模式构成纵向垄断协议的分析

1 周前

丁香园消化时间 · 这 7 种导致胃癌的病因临床上最常见

5 月前