今天看啥  ›  专栏  ›  悟乙己

RAG 分块Chunk技术优劣、技巧、方法汇总(五)

悟乙己  · 知乎专栏  ·  · 2023-12-25 20:11
    

文章预览

在上一篇【 悟乙己:大模型RAG 场景、数据、应用难点与解决(四) 】提到了RAG中文档数据不够干净,召回效果也不会好,同时在第2点提到了Langchian-Chatchat中提及到的一些文档预处理方法,包括更加规范的格式、小切片等。 在这其中其实有一个也是非常关键的,就是如何切分Chunk,而且PDF中结构会比较复杂,包括图片,而且有些排版比较奇怪,所以分Chunk难度还是蛮大的。 如果 chunk粒度是一个句子/单词,那么更加注重局部、关键信息的查询,相应的会缺失上下文的信息 完整的长篇段落或文章,chunk 被embedding出来的就是整个文章的意思,但是很难精准到个体单词 这里有几个场景的区分,首先是微博(少字符)、知乎/小红书(中小量字符数)、博客(超多字符),还有专业性较强、专有名词较多的文章 与 综述类信息总结文章;不同类型的场景会需 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览