专栏名称: LaTeX工作室
欢迎光临分享与学习LaTeX的王国
今天看啥  ›  专栏  ›  LaTeX工作室

一款可本地运行去除个人信息的PDF解析工具:pdf-extract-api

LaTeX工作室  · 公众号  ·  · 2024-11-05 21:01
    

文章预览

一款可本地运行去除个人信息的PDF解析工具:pdf-extract-api,一个可以将图像或 PDF 文件高精度转换为 Markdown 文本或 JSON 结构化文档的工具,文档匿名化处理,可以识别表格数据、数字、数学公式,适合隐私性较强的处理需求,企事业单位、医疗机构等。 1. 特点 无云/外部依赖 :基于 PyTorch 的 OCR(Marker)和 Ollama 通过 docker - compose 进行配置,数据不会发送到开发/服务器环境之外。 高精度转换 :使用不同的 OCR 策略(如 marker、surya - ocr、tessereact)将 PDF 转换为 Markdown,使用 Ollama 支持的模型(如 LLama 3.1)将 PDF 转换为 JSON。 LLM 优化结果 :LLama 可修复 OCR 文本中的拼写和文本问题。 移除 PII :可用于移除 PDF 中的个人身份信息。 分布式队列处理 :使用 Celery 进行异步任务处理。 缓存 :使用 Redis 缓存 OCR 结果。 CLI 工具 :用于发送任务和处理结果。 2. ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览