多模态长文档新基准来了！20多项任务覆盖理解推理定位，GPT-4o也就刚及格

量子位 · 公众号 · AI · 2025-01-02 10:55

主要观点总结

该文章介绍了LongDocURL数据集，它旨在全面、细粒度地评估模型多模态长文档理解能力。文章提到了现有文档理解基准的局限性，并强调了LongDocURL的新颖性和挑战性。团队定义了三个主任务类别：理解、数值推理和跨元素定位，并将数据集细分为20个子任务。团队还设计了一个半自动化流程来构建LongDocURL的评估数据集。文章还讨论了模型性能的差异，包括开源和闭源模型的比较，以及不同输入方式的影响。最后，通过案例分析说明了LongDocURL的实际应用和挑战。

关键观点总结

关键观点1: LongDocURL数据集的特点和目的

LongDocURL旨在全面、细粒度地评估模型多模态长文档理解能力，包括理解、数值推理和跨元素定位三个主任务类别。数据集具有高质量、多模态、长上下文等特点，对模型提出了很大挑战。

关键观点2: 现有文档理解基准的局限性

现有文档理解基准主要关注单页或少页文档，未能涵盖复杂元素、长上下文和多样任务，存在局限性。

关键观点3: 团队定义的三个主任务类别

团队定义了理解、数值推理和跨元素定位三个主任务类别，并详细解释了每个类别的含义和重要性。

关键观点4: 半自动化流程构建数据集

团队设计了一个半自动化流程来构建LongDocURL的评估数据集，该流程包括提取和过滤、问答对生成、自动验证和人工验证四个模块。

关键观点5: 模型性能的差异

文章讨论了不同模型在LongDocURL上的性能差异，包括开源和闭源模型的比较，以及不同输入方式的影响。实验结果表明，使用文本输入的模型性能低于使用图像输入的模型，尤其是当文档包含表格和图形时。

文章预览

LongDocURL团队投稿量子位 | 公众号 QbitAI GPT -4 o仅得分64.5 ，其余模型均未及格！全面、细粒度评估模型多模态长文档理解能力的评测集来了～名为 LongDocURL ，集成了长文档理解、数值推理和跨元素定位三个主任务，并包含20个细分子任务。 LongDocURL主打多模态、长上下文，专注于篇幅在50～150页的英文文档，平均页数和文档标记数分别为85.6和43622.6。数据质量也很高，经过了模型自动验证和人工验证，包括21位全职外包标注员和6位经验丰富的硕博研究生的监督。 △ 图1 新Benchmark与其它数据集在单文档平均页数、文本标记数上的比较 △ 图2 新Benchmark与其它文档理解基准的比较。(U) 理解任务、(R) 推理任务和 (L) 定位任务这项工作由中科院自动化研究所刘成林课题组和淘天集团算法技术-未来生活实验室团队合作完成。团队在多模态输入和纯文 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博