今天看啥  ›  专栏  ›  Hugging Face

人工评估 | 基础概念

Hugging Face  · 公众号  ·  · 2024-12-11 10:30
    

文章预览

这是 人工评估 系列文章的第一篇《基础概念》,全系列包括: 基础概念 人工标注员 技巧与提示 什么是人工评估? 人工评估是指让人类评价模型输出回答的好坏。本文讨论的都是后验评估,即模型已经完成训练,给定一个任务让人类进行评估。 系统化评估 系统化的人工评估主要有 3 种方式: 如果你手头 没有现成的数据集 ,但还是想测试一些模型的能力,可以采用人工评估:提供一个任务说明和打分指南 (例如: 尝试与模型交互,迫使模型输出不当语言,即包含冒犯性、歧视性、暴力等。如果模型输出了不当语言,则得分为 0,反之为 1。 ),以及可供交互的测试模型,然后就可以让标注员人工操作并评分,同时列出评分理由。 如果你手头 已经有数据集 (例如 收集了一组 prompt,并确保这些 prompt 不会迫使模型输出不当回答 ),可以自行将 prom ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览