MMIU: 用于评估大型视觉语言模型的多模态多图像理解

FightingCV · 公众号 · · 2024-10-22 09:00

文章预览

处理多张图像的能力对于大型视觉语言模型 (LVLM) 来说至关重要，因为它可以帮助模型更全面、更细致地理解场景。近年来，多图像 LVLM 开始着手解决这一需求。然而，它们的评估尚未跟上其发展步伐。为了填补这一空白，我们引入了多模态多图像理解 (MMIU) 基准，这是一个全面的评估套件，旨在评估 LVLM 在各种多图像任务中的表现。 MMIU 包含 7 种多图像关系、52 个任务、77,000 张图像和 11,000 个精心策划的多项选择题，使其成为同类中最全面的基准。我们对 24 个流行的 LVLM（包括开源和专有模型）进行了评估，结果表明，多图像理解存在重大挑战，特别是在涉及空间理解的任务中。即使是最先进的模型，如 GPT-4o，在 MMIU 上也只取得了 55.7% 的准确率。通过多方面的分析实验，我们识别出了关键的性能差距和局限性，为未来的模型和数 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博