专栏名称: GitHubStore
分享有意思的开源项目
今天看啥  ›  专栏  ›  GitHubStore

高质量PDF内容提取工具PDF-Extract-Kit

GitHubStore  · 公众号  ·  · 2024-07-15 17:19

文章预览

项目简介 PDF-Extract-Kit通过集成多个模型实现了PDF高质量提取,适用于学术论文、教科书、研究报告和财务报表等多种文档类型,在扫描模糊或有水印的情况下也能保持高鲁棒性 1、布局检测采用LayoutLMv3模型进行区域检测,包括图像、表格、标题、文本等 2、公式检测上采用YOLOv8,包含行内公式和行间公式 3、公式识别上采用UniMERNet识别 4、光学字符识别使用PaddleOCR进行文本识别 对于公式识别,UniMERNet可以媲美商业软件;OCR上使用PaddleOCR,对中英文OCR效果不错,之前分享过 PDF内容提取框架如下图所示 结合多样性PDF文档标注,我们训练了鲁棒的 布局检测 和 公式检测 模型。在论文、教材、研报、财报等多样性的PDF文档上,我们的pipeline都能得到准确的提取结果,对于扫描模糊、水印等情况也有较高鲁棒性。 评测指标 现有开源模型多基于Arxiv论文类型 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览