SpatialVLM：赋予视觉-语言模型空间推理能力

大语言模型和具身智体及自动驾驶 · 公众号 · · 2024-09-22 00:05

文章预览

24年1月来自谷歌的论文“SpatialVLM: Endowing Vision-Language Models with Spatial Reasoning Capabilities”。理解和推理空间关系是视觉问答 (VQA) 和机器人技术的基本能力。虽然视觉-语言模型 (VLM) 在某些 VQA 基准测试中表现出色，但它们仍然缺乏 3D 空间推理能力，例如识别物理目标的定量关系，如距离或大小差异。假设 VLM 有限的空间推理能力是由于训练数据中缺乏 3D 空间知识，并旨在用互联网规模的空间推理数据训练 VLM 来解决此问题。为此提出一个系统来促进这种方法。首先开发一个自动 3D 空间 VQA 数据生成框架，该框架可在 1000 万张真实世界图像上扩展到 20 亿个 VQA 示例。然后，研究训练配方中的各种因素，包括数据质量、训练流水线和 VLM 架构。该工作特色在于度量空间中互联网规模 3D 空间推理数据集。通过在这些数据上训练 VLM，显著增强其在定性和定 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博