文章预览
今天是2024年10月20日,星期日,北京,天气晴。 我们来围绕文档智能这个方向,一个是10种PDF解析工具+6种不同文档类别的测试分析,这个有好落地,能够给出一些具有参考意义的工具。 另一个是关于图表跟知识图谱的结合,ChartKG,其中对于知识图谱的设计、图表要素的抽取以及下游应用的设计,都很有想法,读下来都不错,会有收获。 供大家一起参考并思考。 一、10种PDF解析工具+6种不同文档类别的测试分析 再看看pdf文档的解析工具综述,也是目前大家谈的重点, 《A Comparative Study of PDF Parsing Tools Across Diverse Document Categories》,https://arxiv.org/abs/2410.09871 ,这个工作评估和比较10种流行的PDF解析工具在6种不同文档类别上的表现,这些工具包括PyPDF、pdfminer.six、PyMuPDF、pdfplumber、pypdfium2、Unstructured、Tabula、Camelot以及基于深度学习的工具Nougat和Table Trans
………………………………