专栏名称: Ai fighting

本公众号主要分享自动驾驶感知实战，从算法训练到模型部署。主要致力于3D目标检测，3D目标追踪，多传感器融合，Transform，BEV，OCC，模型量化，模型部署等方向的实战。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

实时性视觉语言模型MiniDrive：使用多帧图像给语言模型为自动驾驶文本标记

Ai fighting · 公众号 · · 2024-09-12 23:13

文章预览

Abstract 视觉-语言模型（VLMs）作为自动驾驶中的通用端到端模型，通过问答交互执行预测、规划和感知等子任务。然而，大多数现有方法依赖于计算开销大的视觉编码器和大型语言模型（LLMs），使其在现实场景和实时应用中难以部署。同时，大多数现有的VLMs缺乏处理多张图像的能力，难以适应自动驾驶中的多摄像头感知。为了解决这些问题，我们提出了一个名为MiniDrive的全新框架，该框架结合了我们提出的特征工程专家混合（FE-MoE）模块和动态指令适配器（DI-Adapter）。FE-MoE能够有效地将2D特征映射为视觉标记嵌入，然后输入到语言模型中。DI-Adapter允许视觉标记嵌入随指令文本嵌入动态变化，从而解决了以往方法中同一图像的视觉标记嵌入静态化的问题。与之前的工作相比，MiniDrive在参数大小、浮点运算和响应效率方面达到了最先进的性能，其中 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

环保人 · 环保部门让车间密闭，安全部门让加强通风，企业莫衷一是，怎么办？请看国标依据

2 天前

环保人 · 专家让提供初期雨水阀门平时常闭的文件依据，请问有什么明确依据吗？

4 天前

环保人 · 处理VOCs的RTO用电加热，尾气需要考虑NOx不？有无环境部文件明确依据？！

6 天前

环保人 · 化粪池应距离建筑物至少几米？其容积和长、宽、深等有无明确规范要求？！

6 天前

环保人 · 危废信息公开栏是设在厂区门口外还是危废库门口外？

6 天前

志公教育 · 4000元/月，五险一金，大专可报，带薪休假...北海供电局、旅游集团、中心卫生院招聘

3 月前

重庆本地宝 · 只有老辈子才懂的重庆歇后语→

4 天前