主要观点总结
该文章介绍了LongDocURL数据集,它旨在全面、细粒度地评估模型多模态长文档理解能力。文章提到了现有文档理解基准的局限性,并强调了LongDocURL的新颖性和挑战性。团队定义了三个主任务类别:理解、数值推理和跨元素定位,并将数据集细分为20个子任务。团队还设计了一个半自动化流程来构建LongDocURL的评估数据集。文章还讨论了模型性能的差异,包括开源和闭源模型的比较,以及不同输入方式的影响。最后,通过案例分析说明了LongDocURL的实际应用和挑战。
关键观点总结
关键观点1: LongDocURL数据集的特点和目的
LongDocURL旨在全面、细粒度地评估模型多模态长文档理解能力,包括理解、数值推理和跨元素定位三个主任务类别。数据集具有高质量、多模态、长上下文等特点,对模型提出了很大挑战。
关键观点2: 现有文档理解基准的局限性
现有文档理解基准主要关注单页或少页文档,未能涵盖复杂元素、长上下文和多样任务,存在局限性。
关键观点3: 团队定义的三个主任务类别
团队定义了理解、数值推理和跨元素定位三个主任务类别,并详细解释了每个类别的含义和重要性。
关键观点4: 半自动化流程构建数据集
团队设计了一个半自动化流程来构建LongDocURL的评估数据集,该流程包括提取和过滤、问答对生成、自动验证和人工验证四个模块。
关键观点5: 模型性能的差异
文章讨论了不同模型在LongDocURL上的性能差异,包括开源和闭源模型的比较,以及不同输入方式的影响。实验结果表明,使用文本输入的模型性能低于使用图像输入的模型,尤其是当文档包含表格和图形时。
文章预览
LongDocURL团队 投稿 量子位 | 公众号 QbitAI GPT -4 o仅得分64.5 ,其余模型均未及格! 全面、细粒度评估模型多模态长文档理解能力的评测集来了~ 名为 LongDocURL ,集成了 长文档理解 、 数值推理 和 跨元素定位 三个主任务,并包含20个细分子任务。 LongDocURL主打 多模态、长上下文 ,专注于篇幅在50~150页的英文文档,平均页数和文档标记数分别为85.6和43622.6。 数据质量 也很高,经过了模型自动验证和人工验证,包括21位全职外包标注员和6位经验丰富的硕博研究生的监督。 △ 图1 新Benchmark与其它数据集在单文档平均页数、文本标记数上的比较 △ 图2 新Benchmark与其它文档理解基准的比较。(U) 理解任务、(R) 推理任务和 (L) 定位任务 这项工作由中科院自动化研究所刘成林课题组和淘天集团算法技术-未来生活实验室团队合作完成。 团队在多模态输入和纯文
………………………………