文章预览
上篇文章我们介绍了借助LLM和OCR将文档转换成markdown的方法: 颠覆传统OCR轻松搞定复杂PDF的工具 。本篇文章将介绍如何对markdown进行有效切分。 之前介绍了文本切分 五个层级 ,本文方法是第三个层次 : Level 1: Character Splitting - 简单的字符长度切分 Level 2: Recursive Character Text Splitting - 通过分隔符切分,然后递归合并 Level 3: Document Specific Splitting - 针对不同文档格式切分 (PDF, Python, Markdown) Level 4: Semantic Splitting - 语义切分 Level 5: Agentic Splitting -使用代理实现自动切分 基本概念和环境 分块通常旨在将具有共同上下文的文本放在一起。考虑到这一点,我们可能希望特别尊重文档本身的结构。例如,markdown 文件按标题组织。在特定标题组中创建块是一种直观的想法。为了解决这一挑战,我们可以使用MarkdownHeaderTextSplitter。这将按指定的一组标题
………………………………