专栏名称: FightingCV

一个专注于分享计算机视觉、多模态机器学习方向前沿论文，解答常见科研问题，分享好用科研工具的公众号。努力努力再努力，瑞思拜！

我也要提交微信公众号

今天看啥

公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词RSS订阅方法

知网期刊RSS订阅方法

即刻RSS订阅方法

相关文章推荐

科技美学 · 什么车最保值？ · 11 小时前

DataEye短剧观察 · 刚刚，约400部微短剧违规！红果、快手、微信 ... · 21 小时前

第一家电网 · 深圳康显壹视界、凤凰电器生产的电视机抽检不合格 · 昨天

成都商报 · 有人在龙泉山捡到“见手青”，新窝子一周被踩出 ... · 昨天

加一研究院 · 月薪10万的「外包妈妈」，这一新兴职业使富人 ... · 2 天前

今天看啥 › 专栏 › FightingCV

EMNLP 2024 | 阿里通义实验室提出MLLM多图能力评估基准MIBench

FightingCV · 公众号 · 科技自媒体 · 2024-10-15 09:00

主要观点总结

本文介绍了阿里通义实验室提出的MIBench，这是一个用于评估多模态大语言模型（MLLMs）在多图场景能力的基准测试集。MIBench包含13K条高质量测试样本，涵盖多图指令、多模态外部知识和多模态上下文学习三个典型多图场景的13个细分子任务。文章还介绍了数据集的构建、选项生成、知识采样、质量控制和评估策略等方面。

关键观点总结

关键观点1: 背景介绍

文章介绍了多模态大模型（MLLMs）在视觉描述、问答、推理等多种视觉-语言任务上的卓越性能，以及评估基准数据集的发展状况。

关键观点2: MIBench的提出

由于现有评估基准数据集大多局限于单图场景，阿里通义实验室mPLUG团队提出了大规模基准测试集MIBench，以全面评估MLLMs在多图场景的能力。

关键观点3: MIBench的特点

MIBench包含多图指令、多模态外部知识和多模态上下文学习三个典型的多图场景，涵盖13个细分子任务。数据集构建包括图片来源、选项生成、知识采样、质量控制等方面。

关键观点4: 评估策略和数据集子任务示例

采用多项选择题形式进行评估，并设计自动化筛选策略和人工验证来确保数据质量。通过多个开源和闭源模型在数据集上的评估，分析了性能差距和性能瓶颈。

关键观点5: 分析和结论

通过对不同子任务测试结果的分析，发现开源MLLMs与GPT-4o等闭源模型存在性能差距，特别是在依赖细粒度感知能力的任务上。多图训练的重要性以及多模态外部知识场景的挑战性也得到了探讨。

免责声明

免责声明：本文内容摘要由平台算法生成，仅为信息导航参考，不代表原文立场或观点。原文内容版权归原作者所有，如您为原作者并希望删除该摘要或链接，请通过【版权申诉通道】联系我们处理。

原文地址：访问原文地址
总结与预览地址：访问总结与预览
推荐产品: 推荐产品
文章地址：访问文章快照

分享到微博