今天看啥  ›  专栏  ›  逛逛GitHub

斩获 15K Star!让图片 PDF 可复制、搜索的神器

逛逛GitHub  · 公众号  ·  · 2025-02-05 13:02
    

文章预览

翻开十年前的工作报告,面对泛黄的纸质合同,整理成摞的文献资料 - 这些场景总离不开扫描仪,将纸张材料转成 PDF 扫描件电子版。 但生成的 PDF 文件像一张张定格照片, 既不能复制文字,也无法搜索关键词。 今天推荐的开源项目:OCRmyPDF 专治各种"哑巴PDF"。 它能精准识别扫描件中的文字,为图像 PDF 嵌入可检索的文本层 。 给扫描件装上"搜索引擎",让扫描件 PDF 开口说话。 🚀 优势 市面常见的OCR工具往往把 PDF 转成 Word 或 TXT,破坏了原有排版。 不同于普通 OCR 软件粗暴转换的做法, OCRmyPDF 像给文件装上透明文字层:打开处理后的 PDF,所有文字可随意复制,页面上的表格、图片位置分毫不差。 🌟 亮点 OCRmyPDF  是一个命令行工具,可以处理多种语言,并提供诸如页面旋转、图像去斜等功能。 使用 Tesseract 引擎,支持超过 100 种语言,同时保持 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览