专栏名称: 我爱计算机视觉

关注计算机视觉与机器学习技术的最前沿，“有价值有深度”，分享开源技术与最新论文解读，传播CVML技术的业内最佳实践。www.52cv.net 微博:计算机视觉与机器学习，QQ群:928997753，52CV君个人账号：Your-Word。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

厦门大学首发多模态阅读理解新任务：图文深度融合数据集VEGA

我爱计算机视觉 · 公众号 · · 2024-07-08 12:43

文章预览

关注公众号，发现CV技术之美介绍多模态大型语言模型（MLLMs）的高速发展彰显了其在处理图文信息方面的强大潜力。然而，目前的多模态模型和方法主要集中于处理基础视觉问答（VQA）任务，这些任务通常只涉及与问题强相关的有限图片和文本信息。在实际应用中，尤其是文档理解领域，模型经常需要处理更为复杂的图文混合输入，这些输入不仅长度更长，而且可能包含冗余甚至误导性的信息。现有的主流MLLMs在处理此类复杂任务时表现不佳，且缺乏相应的Benchmark来评估模型在这些任务上的性能。近日，来自厦门大学纪荣嵘团队提出了一个全新的多模态任务——交错图文阅读理解（Interleaved Image-Text Comprehension, IITC）。该任务要求模型处理包含复杂图文交错信息的输入，并在回答问题时明确指出其参考的图片。为了有效评估和提升模型在IITC任务 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

厦门大学首发多模态阅读理解新任务： 图文深度融合数据集VEGA

文章预览

厦门大学首发多模态阅读理解新任务：图文深度融合数据集VEGA