专栏名称: 智车科技
自动驾驶内容服务商。聚焦自动驾驶前沿动态,引领汽车行业科技创新!
目录
相关文章推荐
青年文摘  ·  随手拍 || ... ·  2 天前  
读书杂志  ·  中读年卡 | ... ·  6 天前  
今天看啥  ›  专栏  ›  智车科技

自动驾驶领域视觉语言模型

智车科技  · 公众号  ·  · 2024-10-03 18:30
    

文章预览

本文来源:自动驾驶之心(ID:whwx_runner) 写在前面 & 笔者的个人理解 视觉语言模型(VLM)是自动驾驶中的通用端到端模型,通过问答交互实现预测、规划和感知等子任务。 然而大多数现有方法依赖于计算成本高昂的视觉编码器和大型语言模型(LLM),这使得它们难以在现实世界场景和实时应用中部署。同时大多数现有的VLM缺乏处理多幅图像的能力,因此难以适应自动驾驶中的环视感知。为了解决这些问题,我们提出了一个名为MiniDrive的新框架,该框架结合了我们提出的特征工程混合专家(FE-MoE)模块和动态指令适配器(DI-Adapter)。FE MoE在输入到语言模型之前,有效地将2D特征映射到视觉标记嵌入中。DI适配器使可视令牌嵌入能够随着指令文本嵌入而动态变化,解决了以前方法中同一图像的静态可视令牌嵌入问题。与之前的工作相比,MiniDrive在 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览