文章预览
本文 约5500字 ,建议阅读 11 分钟 本论文提出伪图结构通过放松传统 KGs 中对于数据和关系的模式约束。 论文题目: Empowering Large Language Models to Set up a Knowledge Retrieval Indexer via Self-Learning 作者单位: 中国人民大学(RUC),上海算法创新研究院(IAAR) 论文地址: https://arxiv.org/pdf/2405.16933 代码地址: https://github.com/IAAR-Shanghai/PGRAG 1、研究动机 检索增强生成(RAG)通过集成外部检索库,为大语言模型(LLMs)提供了一种经济的知识更新策略,从而扩展了 LLMs 的知识边界。然而,数据质量本质上决定着检索性能的上限,因此,如何挖掘和组织庞大的知识,从源头确保数据的质量,是当前 RAG 研究领域的首要议题。 知识精炼(Refinement)因其能够去除无关或冗余信息,大幅降低知识库的存储成本,常被用于检索前的索引阶段,对原始文本进行知识细化。
………………………………