怎样使用LLM代替人类评估？

ChaosstuffAI · 公众号 · · 2024-09-11 18:08

文章预览

LMSYS 发表过一篇名为“Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena”的论文，研究表明像 GPT-4 这样的强大 LLM 评判者可以很好地匹配受控和众包的人类偏好，实现超过 80% 的一致性，与人类之间的一致性水平相同。因此，LLM 作为评判者是一种可扩展且可解释的方法来近似人类偏好，同时可以达到远低于人类评判者的成本。那么如何使用 LLM 来代替人类评估呢将 LLM 作为裁判可以分为三种情况：对比评估：LLM 评委在两个答案中选择一个更好的或宣布平局。单一答案评分：LLM 评委直接为单个答案打分。参考引导评分：提供参考解决方案来进行打分。使用这三种方式分别在 MT-bench 和 Chatbot Arena 基准上评估 LLM 评委的有效性和一致性。 “ MT-bench 包含 80 个高质量的多轮问题，涵盖写作、角色扮演、提取、推理、数学、编码、STEM 和人文科学等类别。Chatb ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博