DriveGenVLM：首个基于视觉语言模型的自动驾驶真实世界视频生成

arXiv每日学术速递 · 公众号 · · 2024-09-03 14:16

文章预览

写在前面 & 个人理解自动驾驶技术的进步需要越来越复杂的方法来理解和预测现实世界场景。视觉语言模型（VLMs）正作为具有显著潜力影响自动驾驶的革命性工具而崭露头角。本文提出了DriveGenVLM框架，用于生成驾驶视频并利用VLMs进行理解。为实现这一目标，采用了一种基于去噪扩散概率模型（DDPM）的视频生成框架，旨在预测现实世界中的视频序列。随后，利用一种称为“基于第一人称视频的高效上下文学习”（EILEV）的预训练模型，探索了生成的视频在VLMs中使用的充分性。该扩散模型使用Waymo开放数据集进行训练，并通过FVD评分进行评估，以确保生成视频的质量和真实性。EILEV为这些生成的视频提供了相应的叙述，这可能在自动驾驶领域带来益处。这些叙述可以增强对交通场景的理解，辅助导航，并提高规划能力。DriveGenVLM框架中将视频生成与V ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博