斩获 15K Star！让图片 PDF 可复制、搜索的神器

逛逛GitHub · 公众号 · · 2025-02-05 13:02

文章预览

翻开十年前的工作报告，面对泛黄的纸质合同，整理成摞的文献资料 - 这些场景总离不开扫描仪，将纸张材料转成 PDF 扫描件电子版。但生成的 PDF 文件像一张张定格照片，既不能复制文字，也无法搜索关键词。今天推荐的开源项目：OCRmyPDF 专治各种"哑巴PDF"。它能精准识别扫描件中的文字，为图像 PDF 嵌入可检索的文本层。给扫描件装上"搜索引擎"，让扫描件 PDF 开口说话。 🚀 优势市面常见的OCR工具往往把 PDF 转成 Word 或 TXT，破坏了原有排版。不同于普通 OCR 软件粗暴转换的做法， OCRmyPDF 像给文件装上透明文字层：打开处理后的 PDF，所有文字可随意复制，页面上的表格、图片位置分毫不差。 🌟 亮点 OCRmyPDF 是一个命令行工具，可以处理多种语言，并提供诸如页面旋转、图像去斜等功能。使用 Tesseract 引擎，支持超过 100 种语言，同时保持 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博