专栏名称: 我爱计算机视觉
关注计算机视觉与机器学习技术的最前沿,“有价值有深度”,分享开源技术与最新论文解读,传播CVML技术的业内最佳实践。www.52cv.net 微博:计算机视觉与机器学习,QQ群:928997753,52CV君个人账号:Your-Word。
今天看啥  ›  专栏  ›  我爱计算机视觉

EMNLP 2024 | 阿里通义实验室提出MLLM多图能力评估基准MIBench

我爱计算机视觉  · 公众号  ·  · 2024-10-12 11:25

文章预览

关注公众号,发现CV技术之美 本篇分享 EMNLP 2024 论文 MIBench: Evaluating Multimodal Large Language Models over Multiple Images ,阿里通义实验室提出MLLM多图能力评估基准MIBench。 论文链接:https://arxiv.org/abs/2407.15272 数据链接:https://huggingface.co/datasets/StarBottle/MIBench 动机 近年来,多模态大模型 (MLLMs) 在视觉描述、问答、推理等多种视觉-语言任务上展现出卓越的性能,也涌现出一批基准数据集工作,如MME、MMBench、SEED-Bench等,用于评估MLLMs在不同细分场景的能力。 然而,大多数MLLMs工作仅关注模型在单张图像输入时的性能,相应的评估基准也局限在单图场景。少数面向多图的评估数据集,如Sparkles-Eval、Mantis-Eval等,所包含的评估维度和样本数量十分有限。 基于此,阿里通义实验室mPLUG团队提出一个新的大规模基准测试集MIBench,包含13K条高质量测试样本,以全面、细致 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览