专栏名称: 前端前沿技术
前端技术工作号,专注前端技术分享,Android、iOS、前端(Node、React)以及跨平台技术(Flutter、RN)开发,个人技术博客:https://blog.csdn.net/xiangzhihong8。
目录
今天看啥  ›  专栏  ›  前端前沿技术

推荐Pdf转Markdown开源项目

前端前沿技术  · 公众号  ·  · 2024-07-15 10:24

文章预览

图片 简介 MinerU 是一款一站式、开源、高质量的数据提取工具,主要包含以下功能: Magic-PDF PDF文档提取 Magic-Doc 网页与电子书提取 Magic-PDF 简介 Magic-PDF 是一款将 PDF 转化为 markdown 格式的工具。支持转换本地文档或者位于支持S3协议对象存储上的文件。 主要功能包含 支持多种前端模型输入 删除页眉、页脚、脚注、页码等元素 符合人类阅读顺序的排版格式 保留原文档的结构和格式,包括标题、段落、列表等 提取图像和表格并在markdown中展示 将公式转换成latex 乱码PDF自动识别并转换 支持cpu和gpu环境 支持windows/linux/mac平台 项目全景 图片 流程图 图片 子模块仓库 PDF-Extract-Kit 高质量的PDF内容提取工具包 上手指南 配置要求 python >= 3.9 推荐使用虚拟环境,以避免可能发生的依赖冲突,venv和conda均可使用。 例如: conda create -n MinerU python=3.10 conda activate M ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览