专栏名称: 灵度智能
致力于提供优质的AI服务。
今天看啥  ›  专栏  ›  灵度智能

实时性视觉语言模型MiniDrive:使用多帧图像给语言模型为自动驾驶文本标记

灵度智能  · 公众号  ·  · 2024-09-14 12:10
    

文章预览

Abstract 视觉-语言模型(VLMs)作为自动驾驶中的通用端到端模型,通过问答交互执行预测、规划和感知等子任务。然而,大多数现有方法依赖于计算开销大的视觉编码器和大型语言模型(LLMs),使其在现实场景和实时应用中难以部署。同时,大多数现有的VLMs缺乏处理多张图像的能力,难以适应自动驾驶中的多摄像头感知。为了解决这些问题,我们提出了一个名为MiniDrive的全新框架,该框架结合了我们提出的特征工程专家混合(FE-MoE)模块和动态指令适配器(DI-Adapter)。FE-MoE能够有效地将2D特征映射为视觉标记嵌入,然后输入到语言模型中。DI-Adapter允许视觉标记嵌入随指令文本嵌入动态变化,从而解决了以往方法中同一图像的视觉标记嵌入静态化的问题。与之前的工作相比,MiniDrive在参数大小、浮点运算和响应效率方面达到了最先进的性能,其中 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览