文章预览
项目简介 PDF-Extract-Kit通过集成多个模型实现了PDF高质量提取,适用于学术论文、教科书、研究报告和财务报表等多种文档类型,在扫描模糊或有水印的情况下也能保持高鲁棒性 1、布局检测采用LayoutLMv3模型进行区域检测,包括图像、表格、标题、文本等 2、公式检测上采用YOLOv8,包含行内公式和行间公式 3、公式识别上采用UniMERNet识别 4、光学字符识别使用PaddleOCR进行文本识别 对于公式识别,UniMERNet可以媲美商业软件;OCR上使用PaddleOCR,对中英文OCR效果不错,之前分享过 PDF内容提取框架如下图所示 结合多样性PDF文档标注,我们训练了鲁棒的 布局检测 和 公式检测 模型。在论文、教材、研报、财报等多样性的PDF文档上,我们的pipeline都能得到准确的提取结果,对于扫描模糊、水印等情况也有较高鲁棒性。 评测指标 现有开源模型多基于Arxiv论文类型
………………………………