专栏名称: dotNET跨平台
专注于.NET Core的技术传播。在这里你可以谈微软.NET,Mono的跨平台开发技术。在这里可以让你的.NET项目有新的思路,不局限于微软的技术栈,横跨Windows,Linux 主流平台
今天看啥  ›  专栏  ›  dotNET跨平台

一款一站式、开源、高质量的数据提取工具(支持PDF/网页/多格式电子书提取)

dotNET跨平台  · 公众号  ·  · 2024-08-08 07:55
    

文章预览

我们致力于探索、分享和推荐最新的实用技术栈、开源项目、框架和实用工具。每天都有新鲜的开源资讯等待你的发现! 项目介绍 MinerU 是一款一站式、开源、高质量的数据提取工具,支持PDF/网页/多格式电子书提取。包含Magic-PDF和Magic-Doc两个核心功能。 Magic-PDF Magic-PDF 是一款将 PDF 转化为 markdown 格式的工具。支持转换本地文档或者位于支持S3协议对象存储上的文件。 功能定位:PDF文档转换为Markdown格式。 支持输入:多种前端模型输入。 内容处理:移除头部、尾部、脚注和页码,保留原文档结构和格式。 特殊元素:提取和显示图像和表格,将方程转换为LaTeX格式。 自动检测:自动检测和转换乱码PDF。 兼容性:支持CPU和GPU环境,适用于Windows、Linux、macOS平台。 Magic-Doc Magic-Doc 是一款支持将网页或多格式电子书转换为 markdown 格式的工具。 功 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览