专栏名称: 我爱计算机视觉

关注计算机视觉与机器学习技术的最前沿，“有价值有深度”，分享开源技术与最新论文解读，传播CVML技术的业内最佳实践。www.52cv.net 微博:计算机视觉与机器学习，QQ群:928997753，52CV君个人账号：Your-Word。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

EMNLP 2024 | 阿里通义实验室提出MLLM多图能力评估基准MIBench

我爱计算机视觉 · 公众号 · AI 科技自媒体 · 2024-10-12 11:25

主要观点总结

关注公众号，发现CV技术之美。本篇分享EMNLP 2024论文MIBench，介绍阿里通义实验室提出的MLLM多图能力评估基准MIBench。该论文链接为https://arxiv.org/abs/2407.15272，数据链接为https://huggingface.co/datasets/StarBottle/MIBench。

关键观点总结

关键观点1: 背景与动机

介绍多模态大模型 (MLLMs) 在视觉描述、问答、推理等多种视觉-语言任务上的卓越性能，以及涌现的基准数据集工作如MME、MMBench、SEED-Bench等。强调现有工作的局限性，如仅关注单张图像输入时的性能，以及评估基准的局限性。提出阿里通义实验室mPLUG团队的新基准测试集MIBench，旨在全面、细致地评估现有MLLMs在多图场景的能力。

关键观点2: MIBench特点

MIBench包含13K条高质量测试样本，涵盖多图指令、多模态外部知识及多模态上下文学习等3个典型多图场景的13个细分子任务。设计包括图片来源、选项生成、知识采样、质量控制等方面。

关键观点3: 数据集构建

介绍数据集的构建过程，包括图片来源、选项生成、知识采样、质量控制等。采用多项选择的形式进行模型评估，干扰项的生成采用两种方案。

关键观点4: 评估策略与模型分析

介绍评估策略，包括多项选择题形式、循环设置正确选项以消除LLM对选项位置偏好的影响等。分析模型评估结果，包括开源与闭源模型性能差距、细粒度感知缺陷、多图训练的重要性以及多模态外部知识场景的挑战性。

关键观点5: 联系信息

提供联系方式（amos@52cv.net）以获取最新AI进展报道。

文章预览

关注公众号，发现CV技术之美本篇分享 EMNLP 2024 论文 MIBench: Evaluating Multimodal Large Language Models over Multiple Images ，阿里通义实验室提出MLLM多图能力评估基准MIBench。论文链接：https://arxiv.org/abs/2407.15272 数据链接：https://huggingface.co/datasets/StarBottle/MIBench 动机近年来，多模态大模型 (MLLMs) 在视觉描述、问答、推理等多种视觉-语言任务上展现出卓越的性能，也涌现出一批基准数据集工作，如MME、MMBench、SEED-Bench等，用于评估MLLMs在不同细分场景的能力。然而，大多数MLLMs工作仅关注模型在单张图像输入时的性能，相应的评估基准也局限在单图场景。少数面向多图的评估数据集，如Sparkles-Eval、Mantis-Eval等，所包含的评估维度和样本数量十分有限。基于此，阿里通义实验室mPLUG团队提出一个新的大规模基准测试集MIBench，包含13K条高质量测试样本，以全面、细致 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博