一款可本地运行去除个人信息的PDF解析工具：pdf-extract-api

LaTeX工作室 · 公众号 · · 2024-11-05 21:01

文章预览

一款可本地运行去除个人信息的PDF解析工具：pdf-extract-api，一个可以将图像或 PDF 文件高精度转换为 Markdown 文本或 JSON 结构化文档的工具，文档匿名化处理，可以识别表格数据、数字、数学公式，适合隐私性较强的处理需求，企事业单位、医疗机构等。 1. 特点无云/外部依赖：基于 PyTorch 的 OCR（Marker）和 Ollama 通过 docker - compose 进行配置，数据不会发送到开发/服务器环境之外。高精度转换：使用不同的 OCR 策略（如 marker、surya - ocr、tessereact）将 PDF 转换为 Markdown，使用 Ollama 支持的模型（如 LLama 3.1）将 PDF 转换为 JSON。 LLM 优化结果：LLama 可修复 OCR 文本中的拼写和文本问题。移除 PII ：可用于移除 PDF 中的个人身份信息。分布式队列处理：使用 Celery 进行异步任务处理。缓存：使用 Redis 缓存 OCR 结果。 CLI 工具：用于发送任务和处理结果。 2. ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博