专栏名称: 深度学习与NLP
专注深度学习、NLP相关技术、资讯。
今天看啥  ›  专栏  ›  深度学习与NLP

文本分块是啥?LumberChunker、语义分块、段落级....算法女生这么回答当场想发 offer

深度学习与NLP  · 知乎专栏  ·  · 2024-06-29 10:14

文章预览

检索增强生成(RAG)系统通过将模型生成与上下文相关文档相结合来提高信息的准确性,文本内容如何分割成“块( chunk )”对检索质量有显著影响。 用于问答实验的 RAG Pipeline,一些tricks , 混合检索 :BM25-Top3、密集检索-Top15,BM25的Top1排在前面,Top2-3排在最后; 大模型重排序: 如果上下文包含六个或更多块,从中间点开始反转块的顺序。 LumberChunker 方法利用 LLM动态地将文档分割成语义独立的块 。这种方法基于一个前提: 当内容块的大小可以变化时,检索效率会提高 ,因为这样可以更好地捕捉内容的语义独立性。LumberChunker通过迭代地提示LLM,在一系列连续段落中识别内容开始转变的点,从而确保每个块在上下文中是连贯的,但与相邻块有所区别。LumberChunker遵循一个 三步流程 。 首先 ,按段落对文档进行分割。 其次 ,通过追加连续的块,创 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览