专栏名称: 老刘说NLP
老刘,NLP开源爱好者与践行者。主页:https://liuhuanyong.github.io。老刘说NLP,将定期发布语言资源、工程实践、技术总结等内容,欢迎关注。
今天看啥  ›  专栏  ›  老刘说NLP

文档处理之10种PDF解析工具测评:兼看知识图谱遇见Chart图表的有趣实现思路

老刘说NLP  · 公众号  ·  · 2024-10-20 11:51

文章预览

今天是2024年10月20日,星期日,北京,天气晴。 我们来围绕文档智能这个方向,一个是10种PDF解析工具+6种不同文档类别的测试分析,这个有好落地,能够给出一些具有参考意义的工具。 另一个是关于图表跟知识图谱的结合,ChartKG,其中对于知识图谱的设计、图表要素的抽取以及下游应用的设计,都很有想法,读下来都不错,会有收获。 供大家一起参考并思考。 一、10种PDF解析工具+6种不同文档类别的测试分析 再看看pdf文档的解析工具综述,也是目前大家谈的重点, 《A Comparative Study of PDF Parsing Tools Across Diverse Document Categories》,https://arxiv.org/abs/2410.09871 ,这个工作评估和比较10种流行的PDF解析工具在6种不同文档类别上的表现,这些工具包括PyPDF、pdfminer.six、PyMuPDF、pdfplumber、pypdfium2、Unstructured、Tabula、Camelot以及基于深度学习的工具Nougat和Table Trans ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览