自动驾驶中多帧、轻量且高效的视觉语言问答模型

自动驾驶专栏 · 公众号 · · 2024-10-04 09:10

文章预览

点击下方卡片，关注“ 自动驾驶专栏 ”公众号自动驾驶干货，即可获取论文链接： https://arxiv.org/pdf/2403.19838.pdf 代码链接：https://github.com/akshaygopalkr/EM-VLM4AD/ 摘要本文介绍了自动驾驶中多帧、轻量且高效的视觉语言问答模型。视觉语言模型（VLMs）和多模态语言模型（MMLMs）在自动驾驶研究中已变得非常重要，因为这些模型可以使用交通场景图像和其它数据模态为端到端自动驾驶安全任务提供可解释的本文推理和响应。然而，这些系统的当前方法使用成本较高的大型语言模型（LLM）主干网络和图像编码器，使得这类系统不适合实时自动驾驶系统，在实时自动驾驶系统中存在严格的内存限制并且需要实现快速推理。为了解决这些先前的问题，本文开发了EM-VLM4AD，这是一种高效、轻量、多帧的视觉语言模型，其用于自动驾驶的视觉问答。与先前的方 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博