专栏名称: AINLPer

一个专注自然语言处理（NLP）方向的公众号。机器学习（ML）、深度学习（DL）、自然语言处理相关模型理解、热门论文（Paper）分享分析、pytorch、C++、Python、Java ...

我也要提交微信公众号

今天看啥

公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

微博RSS订阅方法

即刻RSS订阅方法

干货！来自一位资深大模型算法工程师的感悟——》RAG最佳实践

AINLPer · 公众号 · AI · 2024-11-11 21:31

主要观点总结

本文围绕RAG最佳实践展开讨论，涉及query分类、chunking方法、向量数据库选择、文档检索与重排、以及微调等方面的内容。文章结合复旦大学的探索成果，提供了效果最佳和平衡效率两种实践方法，并详细阐述了整个RAG流程及每个模块的常用模型。

query分类是RAG流程中的第一步，能够过滤和分流，将需要RAG处理的query送入相应的处理流程，提升RAG效果并降低平均延迟。分类器可以选择BERT等模型。

chunking是RAG中重要的处理方法，固定大小chunking是最常见的方法，但可能破坏上下文连续性。利用标点符号按句或按段落chunking是简单好用的方法。合适的chunk size能在保留充分上下文信息的同时提高召回率。

选择支持混合检索的向量数据库能提高RAG的效果，如Milvus和ES。Milvus支持多种向量索引和混合检索能力，而ES能索引多种数据类型，但可能在扩展和索引数据分布方面存在耗时问题。

通过文档检索文档能提高召回效果，一种有效方法是先让大模型按照query生成一篇伪文档，然后拼接伪文档和query做混合检索。重排（reranker）是RAG中的关键步骤，基于深度语言模型的reranker效果很好，但计算量较大。另外，基于query似然模型的reranker能提高效率。

微调生成模型可以提升生成效果。一种有效的方法是在训练样本的上下文中同时掺杂query相关和无关文档，强制模型学到过滤噪声生成答案的能力。但微调耗时耗力，需评估收效后量力而行。

文章提供了效果最佳和平衡效率两种实践方法。效果最佳实践包括query分类、HyDE混合检索、MonoT5重排等；平衡效率实践包括query分类、混合检索等。此外，文章还提供了整个RAG流程及每个模块的常用模型的详细插图。

免责声明：本文内容摘要由平台算法生成，仅为信息导航参考，不代表原文立场或观点。原文内容版权归原作者所有，如您为原作者并希望删除该摘要或链接，请通过【版权申诉通道】联系我们处理。

原文地址：访问原文地址
总结与预览地址：访问总结与预览
推荐产品: 推荐产品
文章地址：访问文章快照

分享到微博