今天看啥  ›  专栏  ›  ChaosstuffAI

怎样使用LLM代替人类评估?

ChaosstuffAI  · 公众号  ·  · 2024-09-11 18:08

文章预览

LMSYS 发表过一篇名为“Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena”的论文,研究表明像 GPT-4 这样的强大 LLM 评判者可以很好地匹配受控和众包的人类偏好,实现超过 80% 的一致性,与人类之间的一致性水平相同。因此,LLM 作为评判者是一种可扩展且可解释的方法来近似人类偏好,同时可以达到远低于人类评判者的成本。 那么如何使用 LLM 来代替人类评估呢 将 LLM 作为裁判可以分为三种情况: 对比评估 :LLM 评委在两个答案中选择一个更好的或宣布平局。 单一答案评分 :LLM 评委直接为单个答案打分。 参考引导评分 :提供参考解决方案来进行打分。 使用这三种方式分别在 MT-bench 和 Chatbot Arena 基准上评估 LLM 评委的有效性和一致性。 “ MT-bench 包含 80 个高质量的多轮问题,涵盖写作、角色扮演、提取、推理、数学、编码、STEM 和人文科学等类别。Chatb ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览