文章预览
本文来源:自动驾驶之心(ID:whwx_runner) 写在前面 & 笔者的个人理解 视觉语言模型(VLM)是自动驾驶中的通用端到端模型,通过问答交互实现预测、规划和感知等子任务。 然而大多数现有方法依赖于计算成本高昂的视觉编码器和大型语言模型(LLM),这使得它们难以在现实世界场景和实时应用中部署。同时大多数现有的VLM缺乏处理多幅图像的能力,因此难以适应自动驾驶中的环视感知。为了解决这些问题,我们提出了一个名为MiniDrive的新框架,该框架结合了我们提出的特征工程混合专家(FE-MoE)模块和动态指令适配器(DI-Adapter)。FE MoE在输入到语言模型之前,有效地将2D特征映射到视觉标记嵌入中。DI适配器使可视令牌嵌入能够随着指令文本嵌入而动态变化,解决了以前方法中同一图像的静态可视令牌嵌入问题。与之前的工作相比,MiniDrive在
………………………………