文章预览
Hi 点击上方 蓝字 关注我们 本文将接着前文( 构建“生产就绪”的企业级RAG应用的6大优化考量【上】|深度探讨 )继续探讨企业RAG应用常见的一些优化处理。 多模态文档处理 企业中有很多的知识并不总是简单的文字形态,很多是以半结构化与非结构化文档的形式存在,最常见的就是图、文、表混排的PDF文档。针对复杂PDF文档的解析、分割与向量化是常见的一种复杂知识处理需求,且在实际应用中达到的效果往往不尽如人意(有少量原因是一些文档自身排版与格式的过度随意与不规范)。 处理复杂多模态文档一般需要借助到 第三方的PDF解析工具、多模态大模型、关联检索 等技术。整体上的思路如下: 以最常见的复杂PDF处理为例: 1. 借助解析工具从PDF中分类提取Text、Table、Image不同形态内容;提取的Table内容一般用Markdown文本等表示,Image
………………………………