专栏名称: arXiv每日学术速递
跟踪计算机视觉、人工智能、机器学习、NLP、语音识别、量化金融等热门方向学术信息
目录
相关文章推荐
今天看啥  ›  专栏  ›  arXiv每日学术速递

MMIU: 用于评估大型视觉语言模型的多模态多图像理解

arXiv每日学术速递  · 公众号  ·  · 2024-10-22 13:25
    

文章预览

处理多张图像的能力对于大型视觉语言模型 (LVLM) 来说至关重要,因为它可以帮助模型更全面、更细致地理解场景。 近年来,多图像 LVLM 开始着手解决这一需求。 然而,它们的评估尚未跟上其发展步伐。 为了填补这一空白,我们引入了多模态多图像理解 (MMIU) 基准,这是一个全面的评估套件,旨在评估 LVLM 在各种多图像任务中的表现。 MMIU 包含 7 种多图像关系、52 个任务、77,000 张图像和 11,000 个精心策划的多项选择题,使其成为同类中最全面的基准。 我们对 24 个流行的 LVLM(包括开源和专有模型)进行了评估,结果表明,多图像理解存在重大挑战,特别是在涉及空间理解的任务中。 即使是最先进的模型,如 GPT-4o,在 MMIU 上也只取得了 55.7% 的准确率。 通过多方面的分析实验,我们识别出了关键的性能差距和局限性,为未来的模型和数据改进 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览