文章预览
Abstract 视觉-语言模型(VLMs)作为自动驾驶中的通用端到端模型,通过问答交互执行预测、规划和感知等子任务。然而,大多数现有方法依赖于计算开销大的视觉编码器和大型语言模型(LLMs),使其在现实场景和实时应用中难以部署。同时,大多数现有的VLMs缺乏处理多张图像的能力,难以适应自动驾驶中的多摄像头感知。为了解决这些问题,我们提出了一个名为MiniDrive的全新框架,该框架结合了我们提出的特征工程专家混合(FE-MoE)模块和动态指令适配器(DI-Adapter)。FE-MoE能够有效地将2D特征映射为视觉标记嵌入,然后输入到语言模型中。DI-Adapter允许视觉标记嵌入随指令文本嵌入动态变化,从而解决了以往方法中同一图像的视觉标记嵌入静态化的问题。与之前的工作相比,MiniDrive在参数大小、浮点运算和响应效率方面达到了最先进的性能,其中
………………………………