专栏名称: FightingCV
一个专注于分享计算机视觉、多模态机器学习方向前沿论文,解答常见科研问题,分享好用科研工具的公众号。努力努力再努力,瑞思拜!
目录
相关文章推荐
今天看啥  ›  专栏  ›  FightingCV

MMIU: 用于评估大型视觉语言模型的多模态多图像理解

FightingCV  · 公众号  ·  · 2024-10-22 09:00
    

文章预览

处理多张图像的能力对于大型视觉语言模型 (LVLM) 来说至关重要,因为它可以帮助模型更全面、更细致地理解场景。  近年来,多图像 LVLM 开始着手解决这一需求。  然而,它们的评估尚未跟上其发展步伐。  为了填补这一空白,我们引入了多模态多图像理解 (MMIU) 基准,这是一个全面的评估套件,旨在评估 LVLM 在各种多图像任务中的表现。  MMIU 包含 7 种多图像关系、52 个任务、77,000 张图像和 11,000 个精心策划的多项选择题,使其成为同类中最全面的基准。  我们对 24 个流行的 LVLM(包括开源和专有模型)进行了评估,结果表明,多图像理解存在重大挑战,特别是在涉及空间理解的任务中。  即使是最先进的模型,如 GPT-4o,在 MMIU 上也只取得了 55.7% 的准确率。  通过多方面的分析实验,我们识别出了关键的性能差距和局限性,为未来的模型和数 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览