专栏名称: 智源社区
【智源社区】是北京智源人工智能研究院打造的一个内行、开放的 AI 实名社区,致力于促进 AI 交流。
今天看啥  ›  专栏  ›  智源社区

直播|李飞飞、谢赛宁组最新工作:空间智能,多模态LLM如何观察、记忆和回忆空间?

智源社区  · 公众号  ·  · 2025-01-13 16:28
    

文章预览

报告主题: Thinking in Space: 多模态大语言模型如何观察、记忆和回忆空间 报告日期: 01 月14日(本周二)10:30-11:30 报告要点: 人类具备从连续视觉信号中记忆空间的visual-spatial intelligence。然而,在百万规模视频数据集上训练的多模态大语言模型(MLLMs)是否也能从视频中进行"空间思维"? 我们提出了一个新的基于视频的visual-spatial intelligence基准测试(VSI-Bench),包含超过5,000对问答对,并发现MLLMs展现虽然低于人类水平的,但具有竞争力的visual-spatial intelligence。 我们通过语言和视觉两种方式探究模型如何进行空间思维,发现虽然空间推理能力仍然是MLLMs达到更高基准性能的主要瓶颈,但局部世界模型和空间意识确实在这些模型中出现。 值得注意的是,主流的语言推理技术(例如,思维链、self-consistency、思维树)都未能带来性能提升,而在问答过程中显 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览