性能不降反增？缩减率2.64的伪图索引为何有助于RAG

数据派THU · 公众号 · 大数据 · 2024-07-09 17:00

文章预览

本文约5500字，建议阅读 11 分钟本论文提出伪图结构通过放松传统 KGs 中对于数据和关系的模式约束。论文题目： Empowering Large Language Models to Set up a Knowledge Retrieval Indexer via Self-Learning 作者单位：中国人民大学（RUC），上海算法创新研究院（IAAR）论文地址： https://arxiv.org/pdf/2405.16933 代码地址： https://github.com/IAAR-Shanghai/PGRAG 1、研究动机检索增强生成（RAG）通过集成外部检索库，为大语言模型（LLMs）提供了一种经济的知识更新策略，从而扩展了 LLMs 的知识边界。然而，数据质量本质上决定着检索性能的上限，因此，如何挖掘和组织庞大的知识，从源头确保数据的质量，是当前 RAG 研究领域的首要议题。知识精炼（Refinement）因其能够去除无关或冗余信息，大幅降低知识库的存储成本，常被用于检索前的索引阶段，对原始文本进行知识细化。 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博