专栏名称: AINLPer
一个专注自然语言处理(NLP)方向的公众号。机器学习(ML)、深度学习(DL)、自然语言处理相关模型理解、热门论文(Paper)分享分析、pytorch、C++、Python、Java ...
今天看啥  ›  专栏  ›  AINLPer

大模型评测指南-RAG篇

AINLPer  · 公众号  ·  · 2024-12-03 23:36
    

文章预览

作为目前LLM最成功的应用之一,RAG系统在各行各业遍地开花,如何评测RAG性能成为人们普遍关注的问题。本文介绍一些常用的RAG性能评测指标。 一个典型的RAG系统由召回和生成两部分构成:召回器负责召回文档,基于LLM的生成器负责根据这些文档生成回复。因此,评测RAG系统性能也要分别从召回和生成两部分入手。 评测召回 召回率 评测召回效果,首先想到的就是召回率。它不仅适用于传统搜索,也适用于RAG。计算召回率时,一般不会考虑召回的全部文档,而是只关注其中的topK文档,即 : 命中率 对于查询集合Q,命中率(Hit Rate,HR)衡量的是召回的topK文档中包含相关文档的查询数量在Q中的占比,即 : 其中, 是一个指标函数:如果查询q召回的topK文档中包含相关文档,则 ;否则, 。 平均排序倒数 令 表示查询q召回的文档列表中排序最靠前的 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览