专栏名称: 代码审计SDL
佛系更新源代码审计,SDL,DevSecOps,渗透测试,应急响应等安全相关内容及行业最佳实践,随缘订阅
今天看啥  ›  专栏  ›  代码审计SDL

MinerU 介绍

代码审计SDL  · 公众号  ·  · 2024-08-05 15:04

文章预览

背景 处理监管文档会遇到一个比较操蛋的问题就是部分文档只有pdf格式的,并且pdf是扫描版本的,无法直接读取pdf,利用多模态进行处理,目前口袋有比较紧张,最近发现一个宝藏项目,MinerU,子项目(PDF-Extract-Kit),可以识别pdf,将pdf转成md,方便数据处理和LLM进行对话。 介绍 MinerU 是一款一站式、开源、高质量的数据提取工具,主要包含以下功能: Magic-PDF PDF文档提取 Magic-Doc 网页与电子书提取 这里主要介绍Magic-PDF,Magic-PDF是一款将 PDF 转化为 markdown 格式的工具。支持转换本地文档或者位于支持S3协议对象存储上的文件。 主要功能包含 支持多种前端模型输入 删除页眉、页脚、脚注、页码等元素 符合人类阅读顺序的排版格式 保留原文档的结构和格式,包括标题、段落、列表等 提取图像和表格并在markdown中展示 将公式转换成latex 乱码PDF自动识别并 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览