讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战
今天看啥  ›  专栏  ›  大语言模型和具身智体及自动驾驶

SpatialRGPT:视觉语言模型中落地空间推理

大语言模型和具身智体及自动驾驶  · 公众号  ·  · 2024-11-13 00:06
    

文章预览

24年10月来自UCSD和Nvidia的论文“SpatialRGPT: Grounded Spatial Reasoning in Vision-Language Models”。 视觉-语言模型 (VLM) 在 2D 视觉和语言任务中表现出色。然而,它们推理空间安排的能力仍然有限。这项工作引入空间域 GPT (SpatialRGPT) 来增强 VLM 的空间感知和推理能力。SpatialRGPT 提高 VLM 的空间理解能力有两点:(i) 数据管理流水线,能够有效地从 3D 场景图中学习区域表示,(ii) 灵活的“插件”模块,用于将深度信息集成到现有 VLM 的视觉编码器中。在推理过程中,当提供用户指定的区域提议时,SpatialRGPT 可以准确感知它们的相对方向和距离。此外,提出 SpatialRGBT-Bench,这是一个基准,具有涵盖室内、室外和模拟环境的真实 3D 注释,用于评估 VLM 中的 3D 空间认知。结果表明,无论有没有局部区域提示,SpatialRGPT 都能显著提高空间推理任务的性能。该模型还表现出泛 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览