专栏名称: PaperAgent
日更,解读AI前沿技术热点Paper
今天看啥  ›  专栏  ›  PaperAgent

RAG文本切分的第四个层次,基于向量模型的语义切分

PaperAgent  · 公众号  ·  · 2024-09-02 10:30

文章预览

之前的文章提到,我们将文本切分划分为五个层级,并介绍了前三个层级的实现和一些基础知识。本篇文章开始,我们将介绍第四层级的内容语义切分;本篇文章将介绍 基于向量模型的语义切分 。 文本切分 五个层级 : Level 1:  Character Splitting  - 简单的字符长度切分 Level 2:  Recursive Character Text Splitting  - 通过分隔符切分,然后递归合并 Level 3:  Document Specific Splitting  - 针对不同文档格式切分 (PDF, Python, Markdown) Level 4: Semantic Splitting  - 语义切分 Level 5: Agentic Splitting -使用代理实现自动切分 这个 切分器 的工作原理是确定何时分隔句子。这是通过查找任意两个句子之间的向量差异来完成的。当该差异超过某个阈值时,它们将被拆分。后面演示它是怎么实现的: 搭建语义切分流程 数据加载 # This is a long document we can split up. with open ( "state_of_the_union.tx ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览