让 LLM 来评判 | 基础概念

Hugging Face · 公众号 · · 2025-01-10 22:30

文章预览

这是让 LLM 来评判系列文章的第一篇，敬请关注系列文章: 基础概念选择 LLM 评估模型设计你自己的评估 prompt 评估你的评估结果奖励模型相关内容技巧与提示什么是评估模型？评估模型 (Judge models) 是一种用于评估其他神经网络的神经网络。大多数情况下它们用来评估生成文本的质量。评估模型涵盖的范围很广，从小型的特定分类器 (例如 “垃圾邮件分类器”) 到大型的 LLM，或大而广、或小而专。使用 LLM 作为评估模型时，需要提供一个 prompt 来解释对模型评分的细则 (例如：请对语句流畅度从 0 到 5 评分，0 分表示完全不可理解，… )。使用模型作为评估工具可以对文本中复杂和细微的特性有效的评估。例如精确匹配预测文本和参考文本的任务，只能评估模型预测正确事实或数字的能力。但要评估更开放性的经验能力 (如文本流畅水平、 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博