专栏名称: 我爱计算机视觉
关注计算机视觉与机器学习技术的最前沿,“有价值有深度”,分享开源技术与最新论文解读,传播CVML技术的业内最佳实践。www.52cv.net 微博:计算机视觉与机器学习,QQ群:928997753,52CV君个人账号:Your-Word。
今天看啥  ›  专栏  ›  我爱计算机视觉

EMNLP 2024 | 阿里通义实验室提出MLLM多图能力评估基准MIBench

我爱计算机视觉  · 公众号  · AI 科技自媒体  · 2024-10-12 11:25
    

主要观点总结

关注公众号,发现CV技术之美。本篇分享EMNLP 2024论文MIBench,介绍阿里通义实验室提出的MLLM多图能力评估基准MIBench。该论文链接为https://arxiv.org/abs/2407.15272,数据链接为https://huggingface.co/datasets/StarBottle/MIBench。

关键观点总结

关键观点1: 背景与动机

介绍多模态大模型 (MLLMs) 在视觉描述、问答、推理等多种视觉-语言任务上的卓越性能,以及涌现的基准数据集工作如MME、MMBench、SEED-Bench等。强调现有工作的局限性,如仅关注单张图像输入时的性能,以及评估基准的局限性。提出阿里通义实验室mPLUG团队的新基准测试集MIBench,旨在全面、细致地评估现有MLLMs在多图场景的能力。

关键观点2: MIBench特点

MIBench包含13K条高质量测试样本,涵盖多图指令、多模态外部知识及多模态上下文学习等3个典型多图场景的13个细分子任务。设计包括图片来源、选项生成、知识采样、质量控制等方面。

关键观点3: 数据集构建

介绍数据集的构建过程,包括图片来源、选项生成、知识采样、质量控制等。采用多项选择的形式进行模型评估,干扰项的生成采用两种方案。

关键观点4: 评估策略与模型分析

介绍评估策略,包括多项选择题形式、循环设置正确选项以消除LLM对选项位置偏好的影响等。分析模型评估结果,包括开源与闭源模型性能差距、细粒度感知缺陷、多图训练的重要性以及多模态外部知识场景的挑战性。

关键观点5: 联系信息

提供联系方式(amos@52cv.net)以获取最新AI进展报道。


文章预览

关注公众号,发现CV技术之美 本篇分享 EMNLP 2024 论文 MIBench: Evaluating Multimodal Large Language Models over Multiple Images ,阿里通义实验室提出MLLM多图能力评估基准MIBench。 论文链接:https://arxiv.org/abs/2407.15272 数据链接:https://huggingface.co/datasets/StarBottle/MIBench 动机 近年来,多模态大模型 (MLLMs) 在视觉描述、问答、推理等多种视觉-语言任务上展现出卓越的性能,也涌现出一批基准数据集工作,如MME、MMBench、SEED-Bench等,用于评估MLLMs在不同细分场景的能力。 然而,大多数MLLMs工作仅关注模型在单张图像输入时的性能,相应的评估基准也局限在单图场景。少数面向多图的评估数据集,如Sparkles-Eval、Mantis-Eval等,所包含的评估维度和样本数量十分有限。 基于此,阿里通义实验室mPLUG团队提出一个新的大规模基准测试集MIBench,包含13K条高质量测试样本,以全面、细致 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览