主要观点总结
关注公众号,发现CV技术之美。本篇分享EMNLP 2024论文MIBench,介绍阿里通义实验室提出的MLLM多图能力评估基准MIBench。该论文链接为https://arxiv.org/abs/2407.15272,数据链接为https://huggingface.co/datasets/StarBottle/MIBench。
关键观点总结
关键观点1: 背景与动机
介绍多模态大模型 (MLLMs) 在视觉描述、问答、推理等多种视觉-语言任务上的卓越性能,以及涌现的基准数据集工作如MME、MMBench、SEED-Bench等。强调现有工作的局限性,如仅关注单张图像输入时的性能,以及评估基准的局限性。提出阿里通义实验室mPLUG团队的新基准测试集MIBench,旨在全面、细致地评估现有MLLMs在多图场景的能力。
关键观点2: MIBench特点
MIBench包含13K条高质量测试样本,涵盖多图指令、多模态外部知识及多模态上下文学习等3个典型多图场景的13个细分子任务。设计包括图片来源、选项生成、知识采样、质量控制等方面。
关键观点3: 数据集构建
介绍数据集的构建过程,包括图片来源、选项生成、知识采样、质量控制等。采用多项选择的形式进行模型评估,干扰项的生成采用两种方案。
关键观点4: 评估策略与模型分析
介绍评估策略,包括多项选择题形式、循环设置正确选项以消除LLM对选项位置偏好的影响等。分析模型评估结果,包括开源与闭源模型性能差距、细粒度感知缺陷、多图训练的重要性以及多模态外部知识场景的挑战性。
关键观点5: 联系信息
提供联系方式(amos@52cv.net)以获取最新AI进展报道。
文章预览
关注公众号,发现CV技术之美 本篇分享 EMNLP 2024 论文 MIBench: Evaluating Multimodal Large Language Models over Multiple Images ,阿里通义实验室提出MLLM多图能力评估基准MIBench。 论文链接:https://arxiv.org/abs/2407.15272 数据链接:https://huggingface.co/datasets/StarBottle/MIBench 动机 近年来,多模态大模型 (MLLMs) 在视觉描述、问答、推理等多种视觉-语言任务上展现出卓越的性能,也涌现出一批基准数据集工作,如MME、MMBench、SEED-Bench等,用于评估MLLMs在不同细分场景的能力。 然而,大多数MLLMs工作仅关注模型在单张图像输入时的性能,相应的评估基准也局限在单图场景。少数面向多图的评估数据集,如Sparkles-Eval、Mantis-Eval等,所包含的评估维度和样本数量十分有限。 基于此,阿里通义实验室mPLUG团队提出一个新的大规模基准测试集MIBench,包含13K条高质量测试样本,以全面、细致
………………………………