专栏名称: 机器之心
专业的人工智能媒体和产业服务平台
今天看啥  ›  专栏  ›  机器之心

ACL杰出论文奖|GPT-4V暴露致命缺陷?JHU等发布首个多模态ToM 测试集,全面提升大模型心智能力

机器之心  · 公众号  · AI  · 2024-09-11 12:36
    

主要观点总结

本文介绍了机器之心AIxiv专栏过去数年的报道内容,并重点关注了一篇关于多模态心智能力测试基准MMToM-QA的论文。该论文探讨了开发具有类人社会智能的AI模型的重要基础——心智能力(Theory of Mind,ToM)。文章介绍了MMToM-QA的创立背景、方法和应用,并指出多模态模型和LLM在心智能力测试中的表现不足,同时提出了一种新方法BIP-ALM来缩小AI模型和人类表现之间的差距。此外,文章还涉及MuMA-ToM研究的后续工作和其提出的方法LIMP的介绍。

关键观点总结

关键观点1: 机器之心AIxiv专栏的概述和投稿信息

机器之心AIxiv专栏是发布学术、技术内容的栏目,过去数年接收了2000多篇内容,覆盖全球各大高校与企业的顶级实验室。投稿邮箱为liyazhou@jiqizhixin.com和zhaoyunfeng@jiqizhixin.com。

关键观点2: MMToM-QA的介绍和重要性

MMToM-QA是第一个多模态的心智能力测试基准,每个问题包含视频、文字描述和心智能力问题。先前的心智能力测试基准都是单一模态的,MMToM-QA要求衡量模型在更长的上下文和更复杂环境下的心智能力。

关键观点3: GPT-4V在MMToM-QA上的表现

GPT-4V在MMToM-QA上的实验结果显示,当涉及信念和现实不一致时,GPT-4V存在致命缺陷。一个失败案例表明GPT-4V无法区分信念和真实世界状态。

关键观点4: BIP-ALM方法介绍及其优势

BIP-ALM是一种新方法,结合了逆向规划和语言模型来推断心理状态的概率。该方法从视频和文字中提取符号表示,并使用逆向规划来推断心理状态。实验表明,BIP-ALM在MMToM-QA上展现了较好的结果。

关键观点5: MuMA-ToM和LIMP的介绍

MuMA-ToM是多模态多智能体的心智能力测试基准的拓展。LIMP是MuMA-ToM提出的一种改进方法,使用自然语言提高通用性,并能够利用任何预训练的大型语言模型。


文章预览

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。 投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com 本文第一作者为 Chuanyang Jin (金川杨),本科毕业于纽约大学,即将前往 JHU 读博。本文为他本科期间在 MIT 访问时的工作,他是最年轻的杰出论文奖获得者之一。 本文的指导老师为 Tianmin Shu (舒天民),JHU 助理教授,Social Cognitive AI Lab 的主任。博士师从 UCLA 朱松纯教授,在 MIT 完成博后,致力于构建能够在现实世界中理解、推理和与人类互动的社会智能系统,从而推进以人为中心的 AI。本文另外两位指导老师 Joshua B. Tenenbaum、Antonio Torralba 为 MIT 著名教授,google scholar 引用量 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览