专栏名称: 量子位
վ'ᴗ' ի 追踪AI行业和技术动态,这里更快一步!关注我们,回复“今天”,更多大新闻等你来发现
今天看啥  ›  专栏  ›  量子位

多模态长文档新基准来了!20多项任务覆盖理解推理定位,GPT-4o也就刚及格

量子位  · 公众号  · AI  · 2025-01-02 10:55
    

主要观点总结

该文章介绍了LongDocURL数据集,它旨在全面、细粒度地评估模型多模态长文档理解能力。文章提到了现有文档理解基准的局限性,并强调了LongDocURL的新颖性和挑战性。团队定义了三个主任务类别:理解、数值推理和跨元素定位,并将数据集细分为20个子任务。团队还设计了一个半自动化流程来构建LongDocURL的评估数据集。文章还讨论了模型性能的差异,包括开源和闭源模型的比较,以及不同输入方式的影响。最后,通过案例分析说明了LongDocURL的实际应用和挑战。

关键观点总结

关键观点1: LongDocURL数据集的特点和目的

LongDocURL旨在全面、细粒度地评估模型多模态长文档理解能力,包括理解、数值推理和跨元素定位三个主任务类别。数据集具有高质量、多模态、长上下文等特点,对模型提出了很大挑战。

关键观点2: 现有文档理解基准的局限性

现有文档理解基准主要关注单页或少页文档,未能涵盖复杂元素、长上下文和多样任务,存在局限性。

关键观点3: 团队定义的三个主任务类别

团队定义了理解、数值推理和跨元素定位三个主任务类别,并详细解释了每个类别的含义和重要性。

关键观点4: 半自动化流程构建数据集

团队设计了一个半自动化流程来构建LongDocURL的评估数据集,该流程包括提取和过滤、问答对生成、自动验证和人工验证四个模块。

关键观点5: 模型性能的差异

文章讨论了不同模型在LongDocURL上的性能差异,包括开源和闭源模型的比较,以及不同输入方式的影响。实验结果表明,使用文本输入的模型性能低于使用图像输入的模型,尤其是当文档包含表格和图形时。


文章预览

LongDocURL团队 投稿 量子位 | 公众号 QbitAI GPT -4 o仅得分64.5 ,其余模型均未及格! 全面、细粒度评估模型多模态长文档理解能力的评测集来了~ 名为 LongDocURL ,集成了 长文档理解 、 数值推理 和 跨元素定位 三个主任务,并包含20个细分子任务。 LongDocURL主打 多模态、长上下文 ,专注于篇幅在50~150页的英文文档,平均页数和文档标记数分别为85.6和43622.6。 数据质量 也很高,经过了模型自动验证和人工验证,包括21位全职外包标注员和6位经验丰富的硕博研究生的监督。 △ 图1 新Benchmark与其它数据集在单文档平均页数、文本标记数上的比较 △ 图2 新Benchmark与其它文档理解基准的比较。(U) 理解任务、(R) 推理任务和 (L) 定位任务 这项工作由中科院自动化研究所刘成林课题组和淘天集团算法技术-未来生活实验室团队合作完成。 团队在多模态输入和纯文 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览