文章预览
作为目前LLM最成功的应用之一,RAG系统在各行各业遍地开花,如何评测RAG性能成为人们普遍关注的问题。本文介绍一些常用的RAG性能评测指标。 一个典型的RAG系统由召回和生成两部分构成:召回器负责召回文档,基于LLM的生成器负责根据这些文档生成回复。因此,评测RAG系统性能也要分别从召回和生成两部分入手。 评测召回 召回率 评测召回效果,首先想到的就是召回率。它不仅适用于传统搜索,也适用于RAG。计算召回率时,一般不会考虑召回的全部文档,而是只关注其中的topK文档,即 : 命中率 对于查询集合Q,命中率(Hit Rate,HR)衡量的是召回的topK文档中包含相关文档的查询数量在Q中的占比,即 : 其中, 是一个指标函数:如果查询q召回的topK文档中包含相关文档,则 ;否则, 。 平均排序倒数 令 表示查询q召回的文档列表中排序最靠前的
………………………………