文章预览
点击下方 卡片 ,关注“ 自动驾驶之心 ”公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 今天自动驾驶之心为大家分享 中科院最新的工作—MiniDrive! 单卡就能训的VLM! 如果您有相关工作需要分享,请在文末联系我们! 自动驾驶课程学习与技术交流群事宜,也欢迎添加小助理微信AIDriver004做进一步咨询 >> 点击进入→ 自动驾驶之心 『 VLM 』 技术交流群 论文作者 | Enming Zhang等 编辑 | 自动驾驶之心 写在前面 & 笔者的个人理解 视觉语言模型(VLM)是自动驾驶中的通用端到端模型,通过问答交互实现预测、规划和感知等子任务。然而大多数现有方法依赖于计算成本高昂的视觉编码器和大型语言模型(LLM),这使得它们难以在现实世界场景和实时应用中部署。同时大多数现有的VLM缺乏处理多幅图像的能力,因此难以适应自动驾驶中的环视感知。
………………………………