文章预览
一款可本地运行去除个人信息的PDF解析工具:pdf-extract-api,一个可以将图像或 PDF 文件高精度转换为 Markdown 文本或 JSON 结构化文档的工具,文档匿名化处理,可以识别表格数据、数字、数学公式,适合隐私性较强的处理需求,企事业单位、医疗机构等。 1. 特点 无云/外部依赖 :基于 PyTorch 的 OCR(Marker)和 Ollama 通过 docker - compose 进行配置,数据不会发送到开发/服务器环境之外。 高精度转换 :使用不同的 OCR 策略(如 marker、surya - ocr、tessereact)将 PDF 转换为 Markdown,使用 Ollama 支持的模型(如 LLama 3.1)将 PDF 转换为 JSON。 LLM 优化结果 :LLama 可修复 OCR 文本中的拼写和文本问题。 移除 PII :可用于移除 PDF 中的个人身份信息。 分布式队列处理 :使用 Celery 进行异步任务处理。 缓存 :使用 Redis 缓存 OCR 结果。 CLI 工具 :用于发送任务和处理结果。 2.
………………………………