文章预览
之前的文章提到,我们将文本切分划分为五个层级,并介绍了前三个层级的实现和一些基础知识。本篇文章开始,我们将介绍第四层级的内容语义切分;本篇文章将介绍 基于向量模型的语义切分 。 文本切分 五个层级 : Level 1: Character Splitting - 简单的字符长度切分 Level 2: Recursive Character Text Splitting - 通过分隔符切分,然后递归合并 Level 3: Document Specific Splitting - 针对不同文档格式切分 (PDF, Python, Markdown) Level 4: Semantic Splitting - 语义切分 Level 5: Agentic Splitting -使用代理实现自动切分 这个 切分器 的工作原理是确定何时分隔句子。这是通过查找任意两个句子之间的向量差异来完成的。当该差异超过某个阈值时,它们将被拆分。后面演示它是怎么实现的: 搭建语义切分流程 数据加载 # This is a long document we can split up. with open ( "state_of_the_union.tx
………………………………