专栏名称: PaperWeekly
PaperWeekly是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台,致力于让国内外优秀科研工作得到更为广泛的传播和认可。社区:http://paperweek.ly | 微博:@PaperWeekly
今天看啥  ›  专栏  ›  PaperWeekly

厦门大学首发多模态阅读理解新任务: 图文深度融合数据集VEGA

PaperWeekly  · 公众号  · 科研  · 2024-07-11 22:04

文章预览

介绍 多模态大型语言模型(MLLMs)的高速发展彰显了其在处理图文信息方面的强大潜力。然而,目前的多模态模型和方法主要集中于处理基础视觉问答(VQA)任务,这些任务通常只涉及与问题强相关的有限图片和文本信息。 在实际应用中,尤其是文档理解领域,模型经常需要处理更为复杂的图文混合输入,这些输入不仅长度更长,而且可能包含冗余甚至误导性的信息。现有的主流 MLLMs 在处理此类复杂任务时表现不佳,且缺乏相应的 Benchmark 来评估模型在这些任务上的性能。 近日,来自厦门大学纪荣嵘团队提出了一个 全新的 多模态任务——交错图文阅读理解(Interleaved Image-Text Comprehension, IITC)。该任务要求模型处理包含复杂图文交错信息的输入,并在回答问题时明确指出其参考的图片。为了有效评估和提升模型在 IITC 任务上的表现,他们构建了 V ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览