文章预览
图片 简介 MinerU 是一款一站式、开源、高质量的数据提取工具,主要包含以下功能: Magic-PDF PDF文档提取 Magic-Doc 网页与电子书提取 Magic-PDF 简介 Magic-PDF 是一款将 PDF 转化为 markdown 格式的工具。支持转换本地文档或者位于支持S3协议对象存储上的文件。 主要功能包含 支持多种前端模型输入 删除页眉、页脚、脚注、页码等元素 符合人类阅读顺序的排版格式 保留原文档的结构和格式,包括标题、段落、列表等 提取图像和表格并在markdown中展示 将公式转换成latex 乱码PDF自动识别并转换 支持cpu和gpu环境 支持windows/linux/mac平台 项目全景 图片 流程图 图片 子模块仓库 PDF-Extract-Kit 高质量的PDF内容提取工具包 上手指南 配置要求 python >= 3.9 推荐使用虚拟环境,以避免可能发生的依赖冲突,venv和conda均可使用。 例如: conda create -n MinerU python=3.10 conda activate M
………………………………