专栏名称: 自动驾驶之心
自动驾驶开发者社区,关注计算机视觉、多维感知融合、部署落地、定位规控、领域方案等,坚持为领域输出最前沿的技术方向!
今天看啥  ›  专栏  ›  自动驾驶之心

挑战更复杂场景!DriveGenVLM:首个基于VLM的自动驾驶世界模型

自动驾驶之心  · 公众号  ·  · 2024-09-04 08:00
    

文章预览

点击下方 卡片 ,关注“ 自动驾驶之心 ”公众号 戳我->  领取 自动驾驶近15个 方向 学习 路线 >> 点击进入→ 自动驾驶之心 『 大语言模型 』 技术交流群 编辑 | 自动驾驶之心 写在前面 & 个人理解 自动驾驶技术的进步需要越来越复杂的方法来理解和预测现实世界场景。视觉语言模型(VLMs)正作为具有显著潜力影响自动驾驶的革命性工具而崭露头角。本文提出了DriveGenVLM框架,用于生成驾驶视频并利用VLMs进行理解。为实现这一目标,采用了一种基于去噪扩散概率模型(DDPM)的视频生成框架,旨在预测现实世界中的视频序列。随后,利用一种称为“基于第一人称视频的高效上下文学习”(EILEV)的预训练模型,探索了生成的视频在VLMs中使用的充分性。该扩散模型使用Waymo开放数据集进行训练,并通过FVD评分进行评估,以确保生成视频的质量和真实性 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览