专栏名称: 学姐带你玩AI
这里有人工智能前沿信息、算法技术交流、机器学习/深度学习经验分享、AI大赛解析、大厂大咖算法面试分享、人工智能论文技巧、AI环境工具库教程等……学姐带你玩转AI!
目录
相关文章推荐
今天看啥  ›  专栏  ›  学姐带你玩AI

谷歌新作!SpatialVLM,让视觉语言模型搞空间推理

学姐带你玩AI  · 公众号  ·  · 2024-09-02 18:25
    

文章预览

来源:投稿  作者:橡皮 编辑:学姐 论文链接:https://arxiv.org/abs/2401.12168 项目主页:https://spatial-vlm.github.io/ unset unset 摘要: unset unset 理解和推理空间关系是视觉问答 (VQA) 和机器人技术的基本能力。虽然视觉语言模型 (VLM) 在某些 VQA 基准测试中表现出色,但它们仍然缺乏 3D 空间推理能力,例如识别物理对象的定量关系,如距离或大小差异。我们假设 VLM 有限的空间推理能力是由于训练数据中缺乏 3D 空间知识,并旨在通过使用互联网规模的空间推理数据训练 VLM 来解决此问题。为此,我们提出了一个系统来促进这种方法。我们首先开发了一个自动 3D 空间 VQA 数据生成框架,该框架可在 1000 万张真实世界图像上扩展到 20 亿个 VQA 示例。然后,我们研究了训练配方中的各种因素,包括数据质量、训练管道和 VLM 架构。我们的工作以度量空间中的第一个互 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览