一个爱生活的地理土博,分享GIS、遥感、空间分析、R语言、景观生态等地理数据科学实操教程、经典文献、数据资源
今天看啥  ›  专栏  ›  走天涯徐小洋地理数据科学

使用 R 语言对扫描文档进行 OCR 并提取表格数据

走天涯徐小洋地理数据科学  · 公众号  ·  · 2024-08-17 18:00

文章预览

为了让大家更好的理解本文内容,欢迎各位培训班会员参加明晚 8 点的直播课: 「使用 R 语言对扫描文档进行 OCR 并提取表格数据」 。 之前也给大家介绍过其他的一些 OCR 方法: R 语言版本: 如何整理 2022 年县域统计年鉴: caj 文件转 pdf、文本识别与数据清洗: https://geodatasci.duanshu.com/#/course/b53cf9c2008a40c99807f5b48ed2e5ee 里面使用的方法准确性也不错,不过最近在处理《2009全国地市县财政统计资料》时感觉还不是非常好用,因此我又更换了新方法。 使用百度大脑的 OCR 接口解析的效果感觉更好,本次课我们将介绍如何在 Stata 中调用该接口从扫描文档中提取表格。 附件中的 一般预算1-4.pdf 文件是《2009全国地市县财政统计资料》书中一般预算部分的前 4 页。 这个文档是拍的照片,堪称是最难识别的了。 表格文字识别 V2 接口 该接口的介绍文档在这里 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览