DriveGenVLM：基于视觉-语言模型的自动驾驶真实世界视频生成

大语言模型和具身智体及自动驾驶 · 公众号 · · 2024-09-02 00:08

文章预览

24年8月来自哥伦比亚大学的论文“DriveGenVLM: Real-world Video Generation for Vision Language Model based Autonomous Driving”。自动驾驶技术的进步需要越来越复杂的方法来理解和预测现实世界的场景。视觉-语言模型 (VLM) 正在成为具有巨大潜力的革命性工具，对自动驾驶产生影响。本文提出 DriveGenVLM 框架来生成驾驶视频并使用 VLM 来理解它们。为此，采用一个基于去噪扩散概率模型 (DDPM) 的视频生成框架，旨在预测现实世界的视频序列。然后，使用一种在以自我为中心视频进行高效上下文学习(EILEV) 的预训练模型，探索生成的视频是否适合用于 VLM。扩散模型使用 Waymo 开放数据集进行训练，并使用 Fre ́chet 视频距离 (FVD) 分数进行评估，确保生成视频的质量和真实感。EILEV 为这些生成的视频提供相应的旁白，增强对交通场景的理解，帮助导航，并提高规划能力。在快 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博