RAG效果优化：高质量文档解析详解

阿里云开发者 · 公众号 · 科技公司 · 2024-08-28 08:30

主要观点总结

本文主要介绍了如何将非结构化数据（如PDF和Word文档）转换为结构化数据，以便于RAG（Retrieval-Augmented Generation）系统使用。文章介绍了Word和PDF文档的解析方法，以及开源工具的对比。同时，也详细描述了版面元素恢复、表格结构识别、阅读顺序还原等关键问题，并给出了阿里云搜索文档内容解析的整体架构和效果示例。

关键观点总结

关键观点1: Word和PDF文档的解析方法

Word倾向于编辑，docx格式遵循Office Open XML标准，可以通过解压缩工具进行解压，提取文档内容。Pdf倾向于阅读和打印，需要通过解析工具提取文字，版面恢复和表格识别等操作。

关键观点2: 开源工具的对比

目前开源工具可以分为基于规则和基于模型的两类。基于规则的方式适用性广泛、速度快，但效果一般；基于模型的方式能识别更多更上层的版面元素，但速度慢，依赖GPU资源，适用场景有限。

关键观点3: 版面元素恢复、表格结构识别、阅读顺序还原等关键问题

版面元素恢复主要包括识别标题、段落、上下标、页眉页脚等；表格结构识别需要准确定位到表格区域，然后识别出表格结构；阅读顺序还原则需要通过版式恢复后，还原出符合人类阅读顺序的文档内容。

关键观点4: 阿里云搜索文档内容解析的整体架构

阿里云搜索文档内容解析采用基于规则的方式解析pdf文件，支持多种格式输出为markdown，包括标题、段落、图片、表格等元素。同时提供了API接口和开发工作台，方便用户调用和体验。

文章预览

阿里妹导读本文关于如何将非结构化数据（如PDF和Word文档）转换为结构化数据，以便于RAG（Retrieval-Augmented Generation）系统使用。背景尽管通用大语言模型（LLM）在知识问答方面取得了非常大的进展，但是对于专业领域依然无能为力，因为专业领域的数据不会对外公开，通用LLM没有学习过，自然不会回答。一种思路是将这些专业数据喂给LLM进行微调，但是对技术和成本要求往往太高，而RAG系统则是解决专业领域问答的另一种思路，在用户原始问题之后加上与之相关的私域数据一起提问，由通用LLM进行分析和总结。通过检索增强的方式为LLM提供更加精准的信息，从而提升最终回答效果，如下图所示：知识数据库是RAG系统的核心组件，需要离线将各类私域文档转换成计算机可检索的数据。实际场景中，大部分专业文档都是以pdf、doc等非结构化数据进 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博