专栏名称: 老刘说NLP
老刘,NLP开源爱好者与践行者。主页:https://liuhuanyong.github.io。老刘说NLP,将定期发布语言资源、工程实践、技术总结等内容,欢迎关注。
今天看啥  ›  专栏  ›  老刘说NLP

大模型RAG问答中的文档分段策略回顾:兼并看LumberChunker动态分块思想

老刘说NLP  · 公众号  ·  · 2024-06-27 11:38
    

文章预览

今天是2024年6月27日,星期四,北京,天气晴。 今天我们主要看RAG中很重要的问题,即文档分段,先来看看文档分段的现有几个思路,然后看看基于大模型进行动态分块的LumberChunker思想 供大家一起参考,问题都很有趣。 问题1:文档分段的现有几个思路回顾 昨天,我们谈了句子分段,我们再来回顾一下段落的分段方法,目前已经有其他方案,图来自于:https://www.rungalileo.io/blog/mastering-rag-advanced-chunking-techniques-for-llm-applications,可以看到其中的一些优劣势; ‍ ‍ ‍ ‍ ‍ ‍ ‍ ‍ ‍ ‍ ‍ 例如: 1、递归分块 :文档根据段落分隔符、新行、空格和单个字符等分隔符的层级进行分割,使用Langchain的RecursiveCharacterTextSplitter函数( https://api.python.langchain.com/en/latest/character/langchain_text_splitters.character.RecursiveCharacterTextSplitter.html )。 2、语义分块 :段落块被嵌入了 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览