专栏名称: 学姐带你玩AI
这里有人工智能前沿信息、算法技术交流、机器学习/深度学习经验分享、AI大赛解析、大厂大咖算法面试分享、人工智能论文技巧、AI环境工具库教程等……学姐带你玩转AI!
今天看啥  ›  专栏  ›  学姐带你玩AI

空间大模型SpatialBot来了!上交、斯坦福等联合推出,具备精确空间理解能力

学姐带你玩AI  · 公众号  ·  · 2024-09-09 18:17

文章预览

来源:投稿  作者:橡皮 编辑:学姐 论文链接:https://arxiv.org/abs/2406.13642 项目主页:https://github.com/BAAI-DCAI/SpatialBot unset unset 摘要: unset unset 视觉语言模型 (VLM) 在二维图像理解方面取得了令人印象深刻的表现,但它们在空间理解方面仍然举步维艰,而空间理解是具身智能的基础。在本文中,我们提出了 SpatialBot,通过输入 RGB 和深度图像来实现更好的空间理解。此外,我们还构建了 SpatialQA 数据集,该数据集涉及多层次的深度相关问题,以训练 VLM 进行深度理解。最后,我们提出了 SpatialBench,以全面评估 VLM 在不同层次上的空间理解能力。在我们的空间理解基准、通用 VLM 基准和具身智能任务上进行的大量实验证明了在 SpatialQA 上训练的 SpatialBot 的显着改进。 unset unset 1 引言 unset unset 最近,视觉语言模型 (VLM) 基于视觉编码器的感知和基于语言模型的 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览