高质量PDF内容提取工具PDF-Extract-Kit

GitHubStore · 公众号 · · 2024-07-15 17:19

文章预览

项目简介 PDF-Extract-Kit通过集成多个模型实现了PDF高质量提取，适用于学术论文、教科书、研究报告和财务报表等多种文档类型，在扫描模糊或有水印的情况下也能保持高鲁棒性 1、布局检测采用LayoutLMv3模型进行区域检测，包括图像、表格、标题、文本等 2、公式检测上采用YOLOv8，包含行内公式和行间公式 3、公式识别上采用UniMERNet识别 4、光学字符识别使用PaddleOCR进行文本识别对于公式识别，UniMERNet可以媲美商业软件；OCR上使用PaddleOCR，对中英文OCR效果不错，之前分享过 PDF内容提取框架如下图所示结合多样性PDF文档标注，我们训练了鲁棒的布局检测和公式检测模型。在论文、教材、研报、财报等多样性的PDF文档上，我们的pipeline都能得到准确的提取结果，对于扫描模糊、水印等情况也有较高鲁棒性。评测指标现有开源模型多基于Arxiv论文类型 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博