专栏名称: PaperWeekly
PaperWeekly是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台,致力于让国内外优秀科研工作得到更为广泛的传播和认可。社区:http://paperweek.ly | 微博:@PaperWeekly
今天看啥  ›  专栏  ›  PaperWeekly

上交、斯坦福等联合推出SpatialBot,大模型走向空间智能、具身智能之路

PaperWeekly  · 公众号  · 科研  · 2024-08-04 21:36

文章预览

论文标题: SpatialBot: Precise Depth Understanding with Vision Language Models 论文链接: https://arxiv.org/abs/2406.13642 项目主页: https://github.com/BAAI-DCAI/SpatialBot RGB+Depth 可以作为多模态大模型(MLLM/VLM)理解空间的途径,但是: 1. 现有模型无法直接理解深度图输入。比如 CLIP 在训练时,没有见过深度图。 2. 现有大模型数据集,大多仅用 RGB 就可以分析、回答。模型不会主动到深度图中索引知识。 因此,作者提出: 1. 三个层次的 SpatialQA 数据集。在 low level 引导模型理解深度图,在 middle level 让模型将 depth 与 RGB 对齐,在 high level 设计多个深度相关任务,标注了 50k 的数据,让模型在理解深度图的基础上,使用深度信息完成任务。 2. SpatialBench 榜单。精心设计和标注的 QA,测试模型深度理解能力 3. SpatialBot 模型。模型在需要时,可以通过 API 获取准确的深度信息。S ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览