MMIU: 用于评估大型视觉语言模型的多模态多图像理解

arXiv每日学术速递 · 公众号 · · 2024-10-22 13:25

文章预览

处理多张图像的能力对于大型视觉语言模型 (LVLM) 来说至关重要，因为它可以帮助模型更全面、更细致地理解场景。近年来，多图像 LVLM 开始着手解决这一需求。然而，它们的评估尚未跟上其发展步伐。为了填补这一空白，我们引入了多模态多图像理解 (MMIU) 基准，这是一个全面的评估套件，旨在评估 LVLM 在各种多图像任务中的表现。 MMIU 包含 7 种多图像关系、52 个任务、77,000 张图像和 11,000 个精心策划的多项选择题，使其成为同类中最全面的基准。我们对 24 个流行的 LVLM（包括开源和专有模型）进行了评估，结果表明，多图像理解存在重大挑战，特别是在涉及空间理解的任务中。即使是最先进的模型，如 GPT-4o，在 MMIU 上也只取得了 55.7% 的准确率。通过多方面的分析实验，我们识别出了关键的性能差距和局限性，为未来的模型和数据改进 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

生态与地理速报 · Nature Communications | 兰州大学吴纪华教授团队揭示生物多样性有助于草地群落抵御植物入侵

9 月前

终极较量 · 金灿荣：十几年前，我对统一台湾大胆做出四种猜测

7 月前

新浪科技 · 【#极氪报警#：#极氪称针对2025款新品谣言报警#】今日晚间，-20240814225000

6 月前

时光音乐SHOW · 张杰跨年演唱会确定！空降三亚！新年倒数的钟声即将在三亚拉开帷幕，你想和谁一起去现场听呢？

3 月前