文章预览
论文标题: SpatialBot: Precise Depth Understanding with Vision Language Models 论文链接: https://arxiv.org/abs/2406.13642 项目主页: https://github.com/BAAI-DCAI/SpatialBot RGB+Depth 可以作为多模态大模型(MLLM/VLM)理解空间的途径,但是: 1. 现有模型无法直接理解深度图输入。比如 CLIP 在训练时,没有见过深度图。 2. 现有大模型数据集,大多仅用 RGB 就可以分析、回答。模型不会主动到深度图中索引知识。 因此,作者提出: 1. 三个层次的 SpatialQA 数据集。在 low level 引导模型理解深度图,在 middle level 让模型将 depth 与 RGB 对齐,在 high level 设计多个深度相关任务,标注了 50k 的数据,让模型在理解深度图的基础上,使用深度信息完成任务。 2. SpatialBench 榜单。精心设计和标注的 QA,测试模型深度理解能力 3. SpatialBot 模型。模型在需要时,可以通过 API 获取准确的深度信息。S
………………………………