文章预览
1. RAG目前存在的问题 RAG系统前前发展取得了一定的成果,但是仍然存在一个问题:在获取文档时会检索到不相关或关联较弱的信息。目前的检索技术,即使是重排序和查询重写, 不但不能滤除检索文档中的大量无关信息块,还致使响应生成出现一系列诸如事实不准确、不相关以及幻觉等问题 。 传统上RAG 系统会检索大量整个文档的文本或者其中冗长的部分,认为这些冗长片段可能包含相关信息。然而,这类系统极少单独审视检索到的文档的章节或段落,所以很可能会有不相关或只是部分相关的信息流入生成阶段。 语言模型生成流畅文本时无法验证所用信息,这让情况更糟。相关或误导性的片段严重扭曲此类模型的结果,降低了系统的可靠性,尤其在开放领域问答和多跳推理等关键任务中。 上图展示了RAG系统检索过程中有没有过滤机制的差别。
………………………………