自动驾驶领域视觉语言模型

智车科技 · 公众号 · · 2024-10-03 18:30

文章预览

本文来源：自动驾驶之心（ID：whwx_runner）写在前面 & 笔者的个人理解视觉语言模型（VLM）是自动驾驶中的通用端到端模型，通过问答交互实现预测、规划和感知等子任务。然而大多数现有方法依赖于计算成本高昂的视觉编码器和大型语言模型（LLM），这使得它们难以在现实世界场景和实时应用中部署。同时大多数现有的VLM缺乏处理多幅图像的能力，因此难以适应自动驾驶中的环视感知。为了解决这些问题，我们提出了一个名为MiniDrive的新框架，该框架结合了我们提出的特征工程混合专家（FE-MoE）模块和动态指令适配器（DI-Adapter）。FE MoE在输入到语言模型之前，有效地将2D特征映射到视觉标记嵌入中。DI适配器使可视令牌嵌入能够随着指令文本嵌入而动态变化，解决了以前方法中同一图像的静态可视令牌嵌入问题。与之前的工作相比，MiniDrive在 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

汽车最前线 · MPV都坐不下？这些八座SUV了解一下，车长超5米，最低不到14万！

15 小时前

新晚报 · 突然火了，不少人跟风炫耀！别学，“轻则行政拘留，重则构成犯罪”

昨天

新晚报 · 突然火了，不少人跟风炫耀！别学，“轻则行政拘留，重则构成犯罪”

昨天

汽车金融大全APP · 新岗位上新

2 天前

芝能汽车 · 亚洲车市 | 2024年印度汽车市场：竞争格局正在变化

3 天前

汽车金融大全APP · 易鑫车主融大大拓展客户边界，油车可做 12 年了

3 天前

观南昌360 · 拉开序幕！这片要做大做强了！“三街四巷”格局曝光！定调沉浸式“乡愁老街”！

5 月前