多模态阅读理解新任务：图文深度融合数据集VEGA

李rumor · 公众号 · · 2024-07-31 09:18

文章预览

介绍多模态大型语言模型（MLLMs）的高速发展彰显了其在处理图文信息方面的强大潜力。然而，目前的多模态模型和方法主要集中于处理基础视觉问答（VQA）任务，这些任务通常只涉及与问题强相关的有限图片和文本信息。在实际应用中，尤其是文档理解领域，模型经常需要处理更为复杂的图文混合输入，这些输入不仅长度更长，而且可能包含冗余甚至误导性的信息。现有的主流MLLMs在处理此类复杂任务时表现不佳，且缺乏相应的Benchmark来评估模型在这些任务上的性能。近日，来自厦门大学纪荣嵘团队提出了一个全新的多模态任务——交错图文阅读理解（Interleaved Image-Text Comprehension, IITC）。该任务要求模型处理包含复杂图文交错信息的输入，并在回答问题时明确指出其参考的图片。为了有效评估和提升模型在IITC任务上的表现，他们构建了 VEGA数 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博