专栏名称: 量子位
վ'ᴗ' ի 追踪AI行业和技术动态,这里更快一步!关注我们,回复“今天”,更多大新闻等你来发现
今天看啥  ›  专栏  ›  量子位

李飞飞谢赛宁新作「空间推理」:多模态大模型性能突破关键所在

量子位  · 公众号  · AI  · 2024-12-23 12:08
    

主要观点总结

该文章主要介绍了李飞飞和谢赛宁及其团队在多模态大语言模型的空间思维研究方面的新成果。文章评估了多模态大模型在视觉空间智能方面的表现,发现其在空间认知方面与人类有显著差异,并对此展开研究。该研究包括提出VSI-Bench基准测试集来评测模型的空间智能,以及分析模型的认知机制等。此外,文章还介绍了团队的成员背景以及论文的更多细节。

关键观点总结

关键观点1: 研究背景及目的

虽然多模态大语言模型在语言理解和一般视觉任务上取得了显著进展,但在空间认知和理解方面的能力仍未得到充分研究。这项研究旨在探索多模态大语言模型的空间思维能力。

关键观点2: 主要研究成果

研究发现多模态大模型在空间认知方面与人类有显著差异,且存在空间推理能力瓶颈。提出了VSI-Bench基准测试集来评测模型的空间智能,并分析了模型的认知机制。

关键观点3: 模型评估结果

人类在VSI-Bench上的平均准确率达到79%,而表现最好的闭源模型是Gemini-1.5 Pro,平均准确率为48.8%。同时,研究证实了视频输入对模型性能的重要性,并分析了模型在语言和视觉两个层面的思维过程。

关键观点4: 研究方法和思路

为了提升模型的空间智能,团队尝试使用认知地图辅助空间推理,并取得了一定的效果。同时,团队成员背景以及研究思路也得到了介绍。


文章预览

西风 发自 凹非寺 量子位 | 公众号 QbitAI 李飞飞谢赛宁 再发新成果: 直接把o1式思考拉至下一个level—— 多模态大语言模型的空间思维 ! 这项研究系统评估了多模态大模型的视觉空间智能,结果发现: 当前,即使是最先进的多模态大模型,在空间认知方面与人类相比仍有显著差距,测试中约 71%的错误都源于空间推理方面的缺陷,即 空间推理能力是当前主要瓶颈 。 更为有趣的是,在这种情况下, 思维链、思维树等常用的语言提示技术直接失 灵了 —— 不仅没有提升模型在空间任务上的表现,反而会使性能下降。 而在问答过程中明确 生成认知地图 则会增强多模态大模型的空间距离能力。 这项工作阵容非常豪华,合著作者中不仅有李飞飞,还有纽约大学计算机科学助理教授、CV大牛谢赛宁。 而剩下的四位作者,全部共同一作。 这项研究吸引了不 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览