文章预览
之前分享的文章中提到,Graph RAG的核心链路分如下三个阶段: 索引(三元组抽取) :通过LLM服务实现文档的三元组提取,写入图数据库。 检索(子图召回) :通过LLM服务实现查询的关键词提取和泛化(大小写、别称、同义词等),并基于关键词实现子图遍历(DFS/BFS),搜索N跳以内的局部子图。 生成(子图上下文) :将局部子图数据格式化为文本,作为上下文和问题一起提交给大模型处理。 实际上三个阶段也可以被简化合并为两个阶段: 内容索引阶段 和 检索生成阶段 。我们就这两个大的阶段分别讨论Graph RAG后续可能的优化方向和思路。 1 内容索引阶段 Graph RAG的内容索引阶段主要目标便是构建高质量的知识图谱,值得继续探索的有以下方向: 图谱元数据 :从文本到知识图谱,是从非结构化信息到结构化信息的转换的过程,虽然图一直被当做
………………………………