文章预览
处理多张图像的能力对于大型视觉语言模型 (LVLM) 来说至关重要,因为它可以帮助模型更全面、更细致地理解场景。 近年来,多图像 LVLM 开始着手解决这一需求。 然而,它们的评估尚未跟上其发展步伐。 为了填补这一空白,我们引入了多模态多图像理解 (MMIU) 基准,这是一个全面的评估套件,旨在评估 LVLM 在各种多图像任务中的表现。 MMIU 包含 7 种多图像关系、52 个任务、77,000 张图像和 11,000 个精心策划的多项选择题,使其成为同类中最全面的基准。 我们对 24 个流行的 LVLM(包括开源和专有模型)进行了评估,结果表明,多图像理解存在重大挑战,特别是在涉及空间理解的任务中。 即使是最先进的模型,如 GPT-4o,在 MMIU 上也只取得了 55.7% 的准确率。 通过多方面的分析实验,我们识别出了关键的性能差距和局限性,为未来的模型和数
………………………………