主要观点总结
本文主要介绍了如何将非结构化数据(如PDF和Word文档)转换为结构化数据,以便于RAG(Retrieval-Augmented Generation)系统使用。文章介绍了Word和PDF文档的解析方法,以及开源工具的对比。同时,也详细描述了版面元素恢复、表格结构识别、阅读顺序还原等关键问题,并给出了阿里云搜索文档内容解析的整体架构和效果示例。
关键观点总结
关键观点1: Word和PDF文档的解析方法
Word倾向于编辑,docx格式遵循Office Open XML标准,可以通过解压缩工具进行解压,提取文档内容。Pdf倾向于阅读和打印,需要通过解析工具提取文字,版面恢复和表格识别等操作。
关键观点2: 开源工具的对比
目前开源工具可以分为基于规则和基于模型的两类。基于规则的方式适用性广泛、速度快,但效果一般;基于模型的方式能识别更多更上层的版面元素,但速度慢,依赖GPU资源,适用场景有限。
关键观点3: 版面元素恢复、表格结构识别、阅读顺序还原等关键问题
版面元素恢复主要包括识别标题、段落、上下标、页眉页脚等;表格结构识别需要准确定位到表格区域,然后识别出表格结构;阅读顺序还原则需要通过版式恢复后,还原出符合人类阅读顺序的文档内容。
关键观点4: 阿里云搜索文档内容解析的整体架构
阿里云搜索文档内容解析采用基于规则的方式解析pdf文件,支持多种格式输出为markdown,包括标题、段落、图片、表格等元素。同时提供了API接口和开发工作台,方便用户调用和体验。
文章预览
阿里妹导读 本文关于如何将非结构化数据(如PDF和Word文档)转换为结构化数据,以便于RAG(Retrieval-Augmented Generation)系统使用。 背景 尽管通用大语言模型(LLM)在知识问答方面取得了非常大的进展,但是对于专业领域依然无能为力,因为专业领域的数据不会对外公开,通用LLM没有学习过,自然不会回答。一种思路是将这些专业数据喂给LLM进行微调,但是对技术和成本要求往往太高,而RAG系统则是解决专业领域问答的另一种思路,在用户原始问题之后加上与之相关的私域数据一起提问,由通用LLM进行分析和总结。通过检索增强的方式为LLM提供更加精准的信息,从而提升最终回答效果,如下图所示: 知识数据库 是RAG系统的核心组件,需要离线将各类私域文档转换成计算机可检索的数据。实际场景中,大部分专业文档都是以pdf、doc等非结构化数据进
………………………………