专栏名称: 阿里云开发者
阿里巴巴官方技术号,关于阿里的技术创新均将呈现于此
今天看啥  ›  专栏  ›  阿里云开发者

RAG效果优化:高质量文档解析详解

阿里云开发者  · 公众号  · 科技公司  · 2024-08-28 08:30

主要观点总结

本文主要介绍了如何将非结构化数据(如PDF和Word文档)转换为结构化数据,以便于RAG(Retrieval-Augmented Generation)系统使用。文章介绍了Word和PDF文档的解析方法,以及开源工具的对比。同时,也详细描述了版面元素恢复、表格结构识别、阅读顺序还原等关键问题,并给出了阿里云搜索文档内容解析的整体架构和效果示例。

关键观点总结

关键观点1: Word和PDF文档的解析方法

Word倾向于编辑,docx格式遵循Office Open XML标准,可以通过解压缩工具进行解压,提取文档内容。Pdf倾向于阅读和打印,需要通过解析工具提取文字,版面恢复和表格识别等操作。

关键观点2: 开源工具的对比

目前开源工具可以分为基于规则和基于模型的两类。基于规则的方式适用性广泛、速度快,但效果一般;基于模型的方式能识别更多更上层的版面元素,但速度慢,依赖GPU资源,适用场景有限。

关键观点3: 版面元素恢复、表格结构识别、阅读顺序还原等关键问题

版面元素恢复主要包括识别标题、段落、上下标、页眉页脚等;表格结构识别需要准确定位到表格区域,然后识别出表格结构;阅读顺序还原则需要通过版式恢复后,还原出符合人类阅读顺序的文档内容。

关键观点4: 阿里云搜索文档内容解析的整体架构

阿里云搜索文档内容解析采用基于规则的方式解析pdf文件,支持多种格式输出为markdown,包括标题、段落、图片、表格等元素。同时提供了API接口和开发工作台,方便用户调用和体验。


文章预览

阿里妹导读 本文关于如何将非结构化数据(如PDF和Word文档)转换为结构化数据,以便于RAG(Retrieval-Augmented Generation)系统使用。 背景 尽管通用大语言模型(LLM)在知识问答方面取得了非常大的进展,但是对于专业领域依然无能为力,因为专业领域的数据不会对外公开,通用LLM没有学习过,自然不会回答。一种思路是将这些专业数据喂给LLM进行微调,但是对技术和成本要求往往太高,而RAG系统则是解决专业领域问答的另一种思路,在用户原始问题之后加上与之相关的私域数据一起提问,由通用LLM进行分析和总结。通过检索增强的方式为LLM提供更加精准的信息,从而提升最终回答效果,如下图所示: 知识数据库 是RAG系统的核心组件,需要离线将各类私域文档转换成计算机可检索的数据。实际场景中,大部分专业文档都是以pdf、doc等非结构化数据进 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览