专栏名称: 老刘说NLP
老刘,NLP开源爱好者与践行者。主页:https://liuhuanyong.github.io。老刘说NLP,将定期发布语言资源、工程实践、技术总结等内容,欢迎关注。
今天看啥  ›  专栏  ›  老刘说NLP

优化数据以提升大模型RAG性能思路:Meta Knowledge for RAG的一个实现思路

老刘说NLP  · 公众号  ·  · 2024-08-27 10:10

文章预览

今天是2024年8月27日,星期二,北京,天气晴。 我们来看看关于RAG进展。 传统的RAG系统通过检索然后阅读框架来增强LLMs,但存在一些挑战,如知识库文档的噪声、缺乏人工标注信息、长文档的编码问题以及用户查询的模糊性。 因此可以采用数据为中心的增强方法,我们可以看看最近的一个工作。 一、Meta Knowledge for RAG 最近的工作, 《Meta Knowledge for Retrieval Augmented Large Language Models》 (https://arxiv.org/abs/2408.09017),利用元数据信息来进行优化,本文来看看这个工作,讨论了一种新的数据为中心的检索增强型生成工作流程,旨在提高大模型对知识库的理解。 从实现思路上看,该工作介绍了一种新的RAG工作流程, 称为准备-重写-检索-阅读(Prepare-Then-Rewrite-Then-Retrieve-Then-Read, PR3) ,通过为每个文档生成元数据和合成问题与答案(QA)对,以及引入元知识 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览