专栏名称: 智驾实验室

欢迎关注“智驾实验室”！本公众号专注于自动驾驶领域，为您带来世界模型的最新研究，多模态大模型的深入解析，以及多模态大模型在自动驾驶领域的应用与落地。在这里，您可以了解到自动驾驶技术的最新动态，洞察行业趋势，与我们一起探索未来出行的无限可能。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

武大/中科院/悉尼科技大学/牛津大学/西交大共同提出 DriveMLLM : 自主驾驶中多模态大语言模型的空间理解基准！

智驾实验室 · 公众号 · · 2024-12-25 08:00

文章预览

ADAS Laboratory 点击上方蓝字关注智驾实验室加入【智驾实验室】交流群，获取更多内容和资料自动驾驶需要全面理解3D环境，以促进诸如运动预测、规划和映射等高级任务。在本文中，作者介绍了DriveMLM，这是一个专门用于评估自动驾驶中多模态大型语言模型（MLMMs）空间理解能力的基准。DriveMLM包括2734个正面摄像头图像，并引入了绝对和相对空间推理任务，以及与语言多样性的自然语言问题相伴随。为了衡量MLLMs的性能，作者提出了关注空间理解的全新评估指标。作者在DriveMLM上评估了几种最先进的MLLM，作者的结果揭示了当前模型在理解驾驶环境中复杂空间关系方面的局限性。作者认为这些发现强调了需要更先进的基于MLLM的空间推理方法，并突显了DriveMLM推动自动驾驶领域进一步研究的潜力。代码将在 https://github.com/XiandaGuo/D ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

武大/中科院/悉尼科技大学/牛津大学/西交大共同提出 DriveMLLM : 自主驾驶中多模态大语言模型的空间理解基准 ！

文章预览

武大/中科院/悉尼科技大学/牛津大学/西交大共同提出 DriveMLLM : 自主驾驶中多模态大语言模型的空间理解基准！