专栏名称: GitHubStore
分享有意思的开源项目
今天看啥  ›  专栏  ›  GitHubStore

将 PDF 文档转换为 JSON 和 Markdown:Docling

GitHubStore  · 公众号  ·  · 2024-09-11 10:07
    

文章预览

项目shix简介 Docling 将 PDF 文档转换为 JSON 和 Markdown 捆绑在一个简单、独立的包中。 主要特点 👇 ⚡ 快速稳定将任何 PDF 文档转换为 JSON 或 Markdown 📑 理解详细的页面布局、阅读顺序,并恢复表格结构 📝 从文档中提取元数据,如标题、作者、引用和语言 🔍 可选择性地应用 OCR(用于扫描版 PDF) 实现原理 通过技术报告,可以看到它的实现原理👇 https://arxiv.org/pdf/2408.09869 - PDF 解析: -- 使用 PDF 后端检索程序化文本标记 (包括字符串内容和页面坐标)。 -- 渲染每页的位图图像以支持下游操作。 - 模型流水线: -- 对文档的每一页独立应用一系列 AI 模型来提取特征和内容,主要包括布局分析和表格结构识别。 -- 布局分析模型: 基于 RT-DETR 架构,在 DocLayNet 数据集上训练。 -- TableFormer: 用于表格结构恢复的视觉-transformer 模型。 -- OCR: 可选支持,默认使用 EasyOC ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览