文章预览
今天是2024年6月27日,星期四,北京,天气晴。 今天我们主要看RAG中很重要的问题,即文档分段,先来看看文档分段的现有几个思路,然后看看基于大模型进行动态分块的LumberChunker思想 供大家一起参考,问题都很有趣。 问题1:文档分段的现有几个思路回顾 昨天,我们谈了句子分段,我们再来回顾一下段落的分段方法,目前已经有其他方案,图来自于:https://www.rungalileo.io/blog/mastering-rag-advanced-chunking-techniques-for-llm-applications,可以看到其中的一些优劣势; 例如: 1、递归分块 :文档根据段落分隔符、新行、空格和单个字符等分隔符的层级进行分割,使用Langchain的RecursiveCharacterTextSplitter函数( https://api.python.langchain.com/en/latest/character/langchain_text_splitters.character.RecursiveCharacterTextSplitter.html )。 2、语义分块 :段落块被嵌入了
………………………………