实时性视觉语言模型MiniDrive：使用多帧图像给语言模型为自动驾驶文本标记

灵度智能 · 公众号 · · 2024-09-14 12:10

文章预览

Abstract 视觉-语言模型（VLMs）作为自动驾驶中的通用端到端模型，通过问答交互执行预测、规划和感知等子任务。然而，大多数现有方法依赖于计算开销大的视觉编码器和大型语言模型（LLMs），使其在现实场景和实时应用中难以部署。同时，大多数现有的VLMs缺乏处理多张图像的能力，难以适应自动驾驶中的多摄像头感知。为了解决这些问题，我们提出了一个名为MiniDrive的全新框架，该框架结合了我们提出的特征工程专家混合（FE-MoE）模块和动态指令适配器（DI-Adapter）。FE-MoE能够有效地将2D特征映射为视觉标记嵌入，然后输入到语言模型中。DI-Adapter允许视觉标记嵌入随指令文本嵌入动态变化，从而解决了以往方法中同一图像的视觉标记嵌入静态化的问题。与之前的工作相比，MiniDrive在参数大小、浮点运算和响应效率方面达到了最先进的性能，其中 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博