今天看啥  ›  专栏  ›  newtype AI

提升AI知识库效果,从PDF转Markdown开始

newtype AI  · 公众号  ·  · 2024-07-28 16:40
    

文章预览

视频号:黄益贺 YouTube / Medium: huangyihe 以下为视频内容的文字版 经常有人抱怨AI知识库精确度不够、答非所问。 我有时候想想,会觉得其实AI也挺冤的,因为很有可能不是它能力不行,而是你一开始给的文档就有问题,导致它提取文本有错误、不完整,那后边一连串的检索、生成怎么可能好呢? 比如最常见的PDF格式,我们阅读起来是没啥难度,但大模型要提取文本就遭罪了。 第一,PDF的结构很复杂,有文本、有图像、有表格,还有字体和布局信息。大模型很难理清楚这些结构,自然也就不好从中提取出文本来。 第二,不同PDF可能使用不同的字符编码,这会导致文本解析错误。 第三,即使成功提取出文本,也可能丢失段落、标题这些很重要的信息,造成对内容的理解出现差错。 所以,要提升AI知识库的效果,先把PDF转换成方便大模型提取文本的格 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览