SpatialRGPT：视觉语言模型中落地空间推理

大语言模型和具身智体及自动驾驶 · 公众号 · · 2024-11-13 00:06

文章预览

24年10月来自UCSD和Nvidia的论文“SpatialRGPT: Grounded Spatial Reasoning in Vision-Language Models”。视觉-语言模型 (VLM) 在 2D 视觉和语言任务中表现出色。然而，它们推理空间安排的能力仍然有限。这项工作引入空间域 GPT (SpatialRGPT) 来增强 VLM 的空间感知和推理能力。SpatialRGPT 提高 VLM 的空间理解能力有两点：(i) 数据管理流水线，能够有效地从 3D 场景图中学习区域表示，(ii) 灵活的“插件”模块，用于将深度信息集成到现有 VLM 的视觉编码器中。在推理过程中，当提供用户指定的区域提议时，SpatialRGPT 可以准确感知它们的相对方向和距离。此外，提出 SpatialRGBT-Bench，这是一个基准，具有涵盖室内、室外和模拟环境的真实 3D 注释，用于评估 VLM 中的 3D 空间认知。结果表明，无论有没有局部区域提示，SpatialRGPT 都能显著提高空间推理任务的性能。该模型还表现出泛 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博