文章预览
Tesseract 开源 OCR 引擎(主存储库) 源代码 http://www.gitpp.com/rz/tesseract-cn 官方网址 tesseract-ocr.github.io/ Tesseract 是一个开源的光学字符识别(OCR)引擎 ,它能够从图像文件中识别和提取文字。Tesseract 由 Ray Smith 在 1985 到 1995 年间在惠普公司(Hewlett-Packard)的布里斯托尔实验室开发。在 2005 年,Tesseract 被惠普开源,并且自 2006 年以来,它一直在由 Google 进行维护和开发。 Tesseract 的主要特点包括: 1. 多语言支持:Tesseract 支持多种语言,包括但不限于英语、中文、西班牙语、法语、德语等。它通过使用预训练的语言模型来提高识别的准确性。 2. 平台兼容性:Tesseract 可以在多种操作系统上运行,包括 Windows、Linux、Mac OS X 等。 3. 命令行工具:Tesseract 主要作为一个命令行工具提供,用户可以通过命令行接口与它交互,执行 OCR 任务。 4. 易于集成:Tesseract 可
………………………………