今天看啥  ›  专栏  ›  PaperAgent

多模态大模型看懂图片也会答错,智源联合多家机构推出多模态模型鲁棒性测试基准

PaperAgent  · 公众号  ·  · 2024-07-04 20:21
    

文章预览

智源研究院联合港科广、北邮、北大以及腾讯优图实验室的 最新研究发现,尽管许多多模态大语言模型( MLLMs)对视觉内容能够正确理解,但在面对误导性的问题时却容易给出错误答案,如图1所示。团队基于此揭示了一个隐藏现象:MLLMs 在视觉问答上的错误回答,不总是因为性能不足,还可能是由于对误导性问题缺乏鲁棒性。 图1 左图展示模型能够正确理解视觉内容,但对于误导性问题回答错误。右图展示现有的MLLMs在回答正向的问题和负向的误导性问题还存在一定的鸿沟。 为全面衡量 MLLMs 的理解能力及其在正确理解视觉内容后面对误导性问题时的表现,研究团队提出了多模态鲁棒性基准(MMR-benchmark)和针对鲁棒性的评价指标。同时为了提升 MLLMs 针对误导性问题的鲁棒性,研究团队精心设计了一个包含成对正向和负向视觉问答样本的训练集(MMR-d ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览