文章预览
关注公众号,发现CV技术之美 本篇分享 EMNLP 2024 论文 MIBench: Evaluating Multimodal Large Language Models over Multiple Images ,阿里通义实验室提出MLLM多图能力评估基准MIBench。 论文链接:https://arxiv.org/abs/2407.15272 数据链接:https://huggingface.co/datasets/StarBottle/MIBench 动机 近年来,多模态大模型 (MLLMs) 在视觉描述、问答、推理等多种视觉-语言任务上展现出卓越的性能,也涌现出一批基准数据集工作,如MME、MMBench、SEED-Bench等,用于评估MLLMs在不同细分场景的能力。 然而,大多数MLLMs工作仅关注模型在单张图像输入时的性能,相应的评估基准也局限在单图场景。少数面向多图的评估数据集,如Sparkles-Eval、Mantis-Eval等,所包含的评估维度和样本数量十分有限。 基于此,阿里通义实验室mPLUG团队提出一个新的大规模基准测试集MIBench,包含13K条高质量测试样本,以全面、细致
………………………………