注册
登录
专栏名称:
灵度智能
致力于提供优质的AI服务。
我也要提交微信公众号
今天看啥
微信公众号rss订阅, 微信rss, 稳定的RSS源
微信公众号RSS订阅方法
B站投稿RSS订阅方法
微博RSS订阅方法
微博搜索关键词订阅方法
豆瓣日记 RSS订阅方法
目录
相关文章推荐
丁香生活研究
·
这些体检异常不是病,别再过度治疗了!
·
21 小时前
广东疾控
·
今日冬至!愿你冬至福至、喜乐安康!
·
2 天前
丁香医生
·
高钾低钠盐能放心吃吗?
·
5 天前
今天看啥
›
专栏
›
灵度智能
实时性视觉语言模型MiniDrive:使用多帧图像给语言模型为自动驾驶文本标记
灵度智能
·
公众号
· · 2024-09-14 12:10
文章预览
Abstract 视觉-语言模型(VLMs)作为自动驾驶中的通用端到端模型,通过问答交互执行预测、规划和感知等子任务。然而,大多数现有方法依赖于计算开销大的视觉编码器和大型语言模型(LLMs),使其在现实场景和实时应用中难以部署。同时,大多数现有的VLMs缺乏处理多张图像的能力,难以适应自动驾驶中的多摄像头感知。为了解决这些问题,我们提出了一个名为MiniDrive的全新框架,该框架结合了我们提出的特征工程专家混合(FE-MoE)模块和动态指令适配器(DI-Adapter)。FE-MoE能够有效地将2D特征映射为视觉标记嵌入,然后输入到语言模型中。DI-Adapter允许视觉标记嵌入随指令文本嵌入动态变化,从而解决了以往方法中同一图像的视觉标记嵌入静态化的问题。与之前的工作相比,MiniDrive在参数大小、浮点运算和响应效率方面达到了最先进的性能,其中 ………………………………
原文地址:
访问原文地址
快照地址:
访问文章快照
总结与预览地址:
访问总结与预览
分享到微博
推荐文章
丁香生活研究
·
这些体检异常不是病,别再过度治疗了!
21 小时前
广东疾控
·
今日冬至!愿你冬至福至、喜乐安康!
2 天前
丁香医生
·
高钾低钠盐能放心吃吗?
5 天前
财宝宝
·
一是亲妈,二是后妈。祝福谁呢? -20240618192128
6 月前
极客公园
·
4 年、230 亿美元、创谷歌收购纪录,这家公司怎么做到的?
5 月前
教育创新力
·
高途停播!教育转型直播,进入淘汰赛?
3 月前