今天看啥  ›  专栏  ›  Hugging Face

让 LLM 来评判 | 基础概念

Hugging Face  · 公众号  ·  · 2025-01-10 22:30
    

文章预览

这是 让 LLM 来评判 系列文章的第一篇,敬请关注系列文章: 基础概念 选择 LLM 评估模型 设计你自己的评估 prompt 评估你的评估结果 奖励模型相关内容 技巧与提示 什么是评估模型? 评估模型 (Judge models) 是一种 用于评估其他神经网络的神经网络 。大多数情况下它们用来评估生成文本的质量。 评估模型涵盖的范围很广,从小型的特定分类器 (例如 “垃圾邮件分类器”) 到大型的 LLM,或大而广、或小而专。使用 LLM 作为评估模型时,需要提供一个 prompt 来解释对模型评分的细则 (例如: 请对语句流畅度从 0 到 5 评分,0 分表示完全不可理解,… )。 使用模型作为评估工具可以对文本中复杂和细微的特性有效的评估。 例如精确匹配预测文本和参考文本的任务,只能评估模型预测正确事实或数字的能力。但要评估更开放性的经验能力 (如文本流畅水平、 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览