挑战更复杂场景！DriveGenVLM：首个基于VLM的自动驾驶世界模型

自动驾驶之心 · 公众号 · · 2024-09-04 08:00

文章预览

点击下方卡片，关注“ 自动驾驶之心 ”公众号戳我-> 领取自动驾驶近15个方向学习路线 >> 点击进入→ 自动驾驶之心『大语言模型』技术交流群编辑 | 自动驾驶之心写在前面 & 个人理解自动驾驶技术的进步需要越来越复杂的方法来理解和预测现实世界场景。视觉语言模型（VLMs）正作为具有显著潜力影响自动驾驶的革命性工具而崭露头角。本文提出了DriveGenVLM框架，用于生成驾驶视频并利用VLMs进行理解。为实现这一目标，采用了一种基于去噪扩散概率模型（DDPM）的视频生成框架，旨在预测现实世界中的视频序列。随后，利用一种称为“基于第一人称视频的高效上下文学习”（EILEV）的预训练模型，探索了生成的视频在VLMs中使用的充分性。该扩散模型使用Waymo开放数据集进行训练，并通过FVD评分进行评估，以确保生成视频的质量和真实性 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

占豪 · “约2000名叙政府军士兵被伊拉克接收”！

4 天前

占豪 · “约2000名叙政府军士兵被伊拉克接收”！

4 天前

龙说天下 · “虾油”这场骗局，只有中国人才懂

6 天前

FM93交通之声 · 车内暴晒的瓶装水还能喝吗？实测结果来了！

3 月前

能源学人 · “亲锂/隔断”纳米双层让高能量密度无阳极全固态电池在低堆叠压力下稳定运行

2 月前

宝马客 · 宝马或将为中期改款新X1和新X2提供新一代HUD技术

2 月前