主要观点总结
本文介绍了阿里通义实验室提出的MIBench,这是一个用于评估多模态大语言模型(MLLMs)在多图场景能力的基准测试集。MIBench包含13K条高质量测试样本,涵盖多图指令、多模态外部知识和多模态上下文学习三个典型多图场景的13个细分子任务。文章还介绍了数据集的构建、选项生成、知识采样、质量控制和评估策略等方面。
关键观点总结
关键观点1: 背景介绍
文章介绍了多模态大模型(MLLMs)在视觉描述、问答、推理等多种视觉-语言任务上的卓越性能,以及评估基准数据集的发展状况。
关键观点2: MIBench的提出
由于现有评估基准数据集大多局限于单图场景,阿里通义实验室mPLUG团队提出了大规模基准测试集MIBench,以全面评估MLLMs在多图场景的能力。
关键观点3: MIBench的特点
MIBench包含多图指令、多模态外部知识和多模态上下文学习三个典型的多图场景,涵盖13个细分子任务。数据集构建包括图片来源、选项生成、知识采样、质量控制等方面。
关键观点4: 评估策略和数据集子任务示例
采用多项选择题形式进行评估,并设计自动化筛选策略和人工验证来确保数据质量。通过多个开源和闭源模型在数据集上的评估,分析了性能差距和性能瓶颈。
关键观点5: 分析和结论
通过对不同子任务测试结果的分析,发现开源MLLMs与GPT-4o等闭源模型存在性能差距,特别是在依赖细粒度感知能力的任务上。多图训练的重要性以及多模态外部知识场景的挑战性也得到了探讨。
文章预览
本篇分享 EMNLP 2024 论文 MIBench: Evaluating Multimodal Large Language Models over Multiple Images ,阿里通义实验室提出MLLM多图能力评估基准MIBench。 论文链接:https://arxiv.org/abs/2407.15272 数据链接:https://huggingface.co/datasets/StarBottle/MIBench 动机 近年来,多模态大模型 (MLLMs) 在视觉描述、问答、推理等多种视觉-语言任务上展现出卓越的性能,也涌现出一批基准数据集工作,如MME、MMBench、SEED-Bench等,用于评估MLLMs在不同细分场景的能力。 然而,大多数MLLMs工作仅关注模型在单张图像输入时的性能,相应的评估基准也局限在单图场景。少数面向多图的评估数据集,如Sparkles-Eval、Mantis-Eval等,所包含的评估维度和样本数量十分有限。 基于此,阿里通义实验室mPLUG团队提出一个新的大规模基准测试集MIBench,包含13K条高质量测试样本,以全面、细致地评估现有MLLMs在多图场景的
………………………………