今天看啥  ›  专栏  ›  Hugging Face

Docmatix - 超大文档视觉问答数据集

Hugging Face  · 公众号  ·  · 2024-08-29 23:00
    

文章预览

本文,我们将发布 Docmatix - 一个超大的文档视觉问答 (DocVQA) 数据集 ,比之前的数据集大 100 倍。当使用 Docmatix 微调 Florence-2 时,消融实验显示 DocVQA 任务的性能提高了 20%。 Docmatix - 一个超大的文档视觉问答 (DocVQA) 数据集 https://hf.co/datasets/HuggingFaceM4/Docmatix Docmatix 数据集样本示例 缘起于 丹鼎 (The Cauldron) 的开发,丹鼎包含了 50 个数据集,旨在用于视觉语言模型 (VLM) 的微调,我们的 Idefics2 就是由此训得。在丹鼎的开发过程中,我们发现缺乏大规模文档视觉问答 (DocVQA) 数据集。Idefics2 依赖的视觉问答数据集主要是 DocVQA,其中仅包含 1 万张图像以及 3 万 9 千对问答 (Q/A)。基于其以及其他数据集微调出的开源模型在性能上与闭源模型差距很大。 丹鼎 (The Cauldron) https://hf.co/datasets/HuggingFaceM4/the_cauldron Idefics2 https://hf.co/blog/idefics2 为了解决这一问题,我们 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览