注册
登录
专栏名称:
arXiv每日学术速递
跟踪计算机视觉、人工智能、机器学习、NLP、语音识别、量化金融等热门方向学术信息
我也要提交微信公众号
今天看啥
微信公众号rss订阅, 微信rss, 稳定的RSS源
微信公众号RSS订阅方法
B站投稿RSS订阅方法
微博RSS订阅方法
微博搜索关键词订阅方法
豆瓣日记 RSS订阅方法
目录
相关文章推荐
白云仙院
·
此玄门秘术,能预测身体疾病,还可断余生财运!
·
5 小时前
今天看啥
›
专栏
›
arXiv每日学术速递
DriveGenVLM:首个基于视觉语言模型的自动驾驶真实世界视频生成
arXiv每日学术速递
·
公众号
· · 2024-09-03 14:16
文章预览
写在前面 & 个人理解 自动驾驶技术的进步需要越来越复杂的方法来理解和预测现实世界场景。视觉语言模型(VLMs)正作为具有显著潜力影响自动驾驶的革命性工具而崭露头角。本文提出了DriveGenVLM框架,用于生成驾驶视频并利用VLMs进行理解。为实现这一目标,采用了一种基于去噪扩散概率模型(DDPM)的视频生成框架,旨在预测现实世界中的视频序列。随后,利用一种称为“基于第一人称视频的高效上下文学习”(EILEV)的预训练模型,探索了生成的视频在VLMs中使用的充分性。该扩散模型使用Waymo开放数据集进行训练,并通过FVD评分进行评估,以确保生成视频的质量和真实性。EILEV为这些生成的视频提供了相应的叙述,这可能在自动驾驶领域带来益处。这些叙述可以增强对交通场景的理解,辅助导航,并提高规划能力。DriveGenVLM框架中将视频生成与V ………………………………
原文地址:
访问原文地址
快照地址:
访问文章快照
总结与预览地址:
访问总结与预览
分享到微博
推荐文章
白云仙院
·
此玄门秘术,能预测身体疾病,还可断余生财运!
5 小时前
中交一航
·
重庆高速公路投资控股有限公司领导到一航局走访交流
3 月前
毕马威KPMG
·
毕马威受邀参加港交所“苏州行”活动
2 月前
跨境知道
·
叮咚,有份美国商标全兜底注册福利待你领取
1 月前