专栏名称: 数据派THU
本订阅号是“THU数据派”的姊妹账号,致力于传播大数据价值、培养数据思维。
目录
今天看啥  ›  专栏  ›  数据派THU

性能不降反增?缩减率2.64的伪图索引为何有助于RAG

数据派THU  · 公众号  · 大数据  · 2024-07-09 17:00

文章预览

本文 约5500字 ,建议阅读 11 分钟 本论文提出伪图结构通过放松传统 KGs 中对于数据和关系的模式约束。 论文题目:  Empowering Large Language Models to Set up a Knowledge Retrieval Indexer via Self-Learning 作者单位:  中国人民大学(RUC),上海算法创新研究院(IAAR) 论文地址:  https://arxiv.org/pdf/2405.16933 代码地址:  https://github.com/IAAR-Shanghai/PGRAG 1、研究动机 检索增强生成(RAG)通过集成外部检索库,为大语言模型(LLMs)提供了一种经济的知识更新策略,从而扩展了 LLMs 的知识边界。然而,数据质量本质上决定着检索性能的上限,因此,如何挖掘和组织庞大的知识,从源头确保数据的质量,是当前 RAG 研究领域的首要议题。 知识精炼(Refinement)因其能够去除无关或冗余信息,大幅降低知识库的存储成本,常被用于检索前的索引阶段,对原始文本进行知识细化。 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览