专栏名称: 集智书童
书童带你领略视觉前沿之美,精选科研前沿、工业实用的知识供你我进步与学习!
今天看啥  ›  专栏  ›  集智书童

单卡就能训的VLM来了!中科院提出MiniDrive:各项指标完爆当前SOTA~

集智书童  · 公众号  ·  · 2024-09-16 09:00

文章预览

今天自动驾驶之心为大家分享 中科院最新的工作—MiniDrive! 单卡就能训的VLM! 如果您有相关工作需要分享,请在文末联系我们! 自动驾驶课程学习与技术交流群事宜,也欢迎添加小助理微信AIDriver004做进一步咨询 论文作者  | Enming Zhang等 编辑 | 自动驾驶之心 写在前面 & 笔者的个人理解 视觉语言模型(VLM)是自动驾驶中的通用端到端模型,通过问答交互实现预测、规划和感知等子任务。然而大多数现有方法依赖于计算成本高昂的视觉编码器和大型语言模型(LLM),这使得它们难以在现实世界场景和实时应用中部署。同时大多数现有的VLM缺乏处理多幅图像的能力,因此难以适应自动驾驶中的环视感知。为了解决这些问题,我们提出了一个名为MiniDrive的新框架,该框架结合了我们提出的特征工程混合专家(FE-MoE)模块和动态指令适配器(DI-Adapter) ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览