文章预览
文章介绍了 MuMA-ToM ,这是首个针对多模态多人理论心智( ToM )进行评估的基准测试框架,它用于评估 AI 系统在真实家庭环境中通过视频和文本描述来理解和推理人与人之间互动的能力,特别是关于人们的心理状态、目标及相互之间的信念推断。为此,作者还提出了一种名为 LIMP (基于语言模型的逆向多人规划)的新模型,实验结果显示 LIMP 的表现明显优于目前最先进的方法,包括一些大型的多模态模型。文章通过对人类实验的验证提供了人类基线数据,并展示了 LIMP 在多模态 ToM 任务上的优越性。 1 人类社会交互的本质 人类生活在充满社交互动的世界中,不仅亲身参与社交活动,还能理解他人的社交行为。心理学研究表明,理解不同类型社交互动的能力很早就开始发展,并成为日后更复杂社交技能的基础之一。关键在于,理解社交互动不仅仅是
………………………………