专栏名称: 老刘说NLP
老刘,NLP开源爱好者与践行者。主页:https://liuhuanyong.github.io。老刘说NLP,将定期发布语言资源、工程实践、技术总结等内容,欢迎关注。
今天看啥  ›  专栏  ›  老刘说NLP

如何解决文档处理中的顺序错误问题:文档阅读顺序及OCR阅读顺序代表应对方案

老刘说NLP  · 公众号  · 程序员  · 2024-11-12 08:40
    

主要观点总结

本文主要介绍了文档顺序的问题,包括RAG切分的开源库Chonkie的五种切分方式、OCR中的阅读顺序问题以及文档布局中的阅读顺序问题。文章提到了一些解决方案,包括使用启发式方法、深度学习模型等,并讨论了不同方案的优缺点。文章还提到了开源代码和参考文献。

关键观点总结

关键观点1: RAG切分的开源库Chonkie的五种切分方式

Chonkie支持五种不同的文本切分方式,包括TokenChunker、WordChunker、SentenceChunker、SemanticChunker和SDPMChunker,可根据需求选择不同的切分方式。

关键观点2: OCR中的阅读顺序问题

在实际生产应用中,OCR组件活动会根据布局信息排列词语的顺序,但有时这种排列方式不符合人类的阅读习惯,需要解决阅读顺序问题。解决方案包括使用大模型进行OCR修正,以及使用启发式方法等。

关键观点3: 文档布局中的阅读顺序问题

文档布局中的阅读顺序问题涉及到版式布局分析和文本框的排列。解决方案包括使用启发式方法、深度学习模型等。文章还介绍了一些开源代码和参考文献。


文章预览

今天是2024年11月12日,星期二,北京,天气雾。 先说关于 RAG切分的开源库Chonkie :https://github.com/bhavnicksm/chonkie,https://pypi.org/project/chonkie/,支持 TokenChunker : Splits text into fixed-size token chunks; WordChunker : Splits text into chunks based on words; SentenceChunker : Splits text into chunks based on sentences; SemanticChunker : Splits text into chunks based on semantic similarity;SDPMChunker: Splits text using a Semantic Double-Pass Merge approach共5种切分方式, 详细 看https://github.com/bhavnicksm/chonkie/blob/main/DOCS.md, 一些对比结论 :https://github.com/bhavnicksm/chonkie/blob/main/benchmarks/README.md,跟其他切分组件(如LangChain、LlamaIndex)的对比,可作为再次温习使用。 今天,我们来看看关于实际业务落地中的 文档顺序的问题,文档阅读顺序,这个问题其实很常见,一方面,这个可以用于文档转markdown,尤其是涉及到包括双栏、 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览