专栏名称: PaperWeekly

PaperWeekly是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台，致力于让国内外优秀科研工作得到更为广泛的传播和认可。社区：http://paperweek.ly | 微博：@PaperWeekly

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

上交、斯坦福等联合推出SpatialBot，大模型走向空间智能、具身智能之路

PaperWeekly · 公众号 · 科研 · 2024-08-04 21:36

文章预览

论文标题： SpatialBot: Precise Depth Understanding with Vision Language Models 论文链接： https://arxiv.org/abs/2406.13642 项目主页： https://github.com/BAAI-DCAI/SpatialBot RGB+Depth 可以作为多模态大模型（MLLM/VLM）理解空间的途径，但是： 1. 现有模型无法直接理解深度图输入。比如 CLIP 在训练时，没有见过深度图。 2. 现有大模型数据集，大多仅用 RGB 就可以分析、回答。模型不会主动到深度图中索引知识。因此，作者提出： 1. 三个层次的 SpatialQA 数据集。在 low level 引导模型理解深度图，在 middle level 让模型将 depth 与 RGB 对齐，在 high level 设计多个深度相关任务，标注了 50k 的数据，让模型在理解深度图的基础上，使用深度信息完成任务。 2. SpatialBench 榜单。精心设计和标注的 QA，测试模型深度理解能力 3. SpatialBot 模型。模型在需要时，可以通过 API 获取准确的深度信息。S ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

实验万事屋 · 经常发表10+SCI文章的博士生应该知道，表观遗传不好做！看了这杭州师范大学11.7分的Science子刊，我更难了……

2 天前

募格学术 · 施一公：那些起跑严重落后、后程全力拼搏的人，很可能会有大出息

3 天前

天津政务信息发布 · 开学首日奥运冠军送上新学期寄语

4 月前

与民法典同行 · 尚连杰：无益费用的赔偿限制原理 | 好文摘编

2 月前

深圳ZKH · 如今，没有运气，只有概率 -20241102181544

2 月前

金山之旅 · 回复@长期投资医药股A: 有可能的//@长期投资医药股A:回复@-20241105115548

2 月前