文章预览
在构建RAG应用时,一个核心的工作就是构建知识库,进而以便于在实际进行问答时能够更准确地检索到文档内有关于问题的相关上下文信息。而知识库文档的一大来源来自于pdf格式文件,这类文件通常是富文本的,包含图片,表格等,且无法直接解析,必须通过一些技术手段将其拆分识别形成可被后续处理的文本文件,如text或markdown。 “Quility in,Quility Out”是构建高质量RAG的指导思想,因此,文档处理流程第一步——加载解析就变得尤为重要,也是很多RAG框架体现其核心优势的地方之一,比如RAGFlow 的核心组件DeepDoc利用OCR、布局识别、表格解析等技术提取文字,图片等内容。llamaindex推出了llamaparse智能解析复杂内容的pdf,提取文字,图片,表格等信息,并默认输出为markdown格式文件。 最近出现了一个新的工具gptpdf( https://github.com/CosmosShadow/gptpdf )
………………………………