文章预览
作者:张辰皓 随着多模态大模型(MLLMs)能力的不断提升,对其高阶能力的评估需求也在增加。然而,目前缺乏对MLLMs在理解中文特色视觉内容方面的高阶感知和推理能力的评估工作。为了探讨多模型大模型与人类的差距,来自华中科技大学,中科院深圳先进院,M-A-P,零一万物等多家机构联合提出了首个用于评估多模态大模型(MLLMs)中文图像隐喻理解能力的综合性基准测试CII-Bench。 背景信息 近年来,MLLMs在自然语言处理和计算机视觉等领域表现出色,能够处理和生成文本,并在多模态信息的整合和解释方面表现出色。然而,尽管在图像识别和生成任务上取得了显著进展, 图像隐喻理解(Image Implication Understanding) 正成为一个全新的挑战。图像隐喻理解不仅仅是识别图像中的物体,它要求模型具备多跳逻辑推理能力和心智理论(ToM),这是属于
………………………………