专栏名称: arXiv每日学术速递
跟踪计算机视觉、人工智能、机器学习、NLP、语音识别、量化金融等热门方向学术信息
今天看啥  ›  专栏  ›  arXiv每日学术速递

六大数据集全部SOTA!最新DriveMM:自动驾驶一体化多模态大模型(美团&中山大学)

arXiv每日学术速递  · 公众号  ·  · 2024-12-20 13:30
    

文章预览

写在前面 & 笔者的个人理解 近年来,视觉-语言数据和模型在自动驾驶领域引起了广泛关注。许多精心设计和标注的数据集用于微调多模态大模型,使模型不仅能理解视觉输入并生成文本回答,更能适用于自动驾驶多种应用场景。由于驾驶场景的复杂多变以及驾驶行为的多样性,现有的自动驾驶模型和数据往往专注于单一场景和任务。虽然这些方法表现出了显著的性能,但模型的适用性局限于特定场景和任务,比如特定的输入类型和数据集特定的任务。一方面,我们注意到不同数据集的收集方法是由其特定任务决定的。例如,专注于极端情况和特殊物体感知的数据集只需要前视图图像,而与车辆行为预测和自车决策相关的任务则需要多视角甚至视频的输入。另一方面,每个数据集都聚焦于特定子任务。因此,在单一数据集上训练的专有模型缺乏处 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览