让 LLM 来评判 | 选择 LLM 评估模型

Hugging Face · 公众号 · · 2025-01-14 10:30

文章预览

这是让 LLM 来评判系列文章的第二篇，敬请关注系列文章: 基础概念选择 LLM 评估模型设计你自己的评估 prompt 评估你的评估结果奖励模型相关内容技巧与提示使用现有的 LLM 评估模型时，你可以选择：通用性强、能力高的大模型、专业性强、特定数据偏好的小模型、或自行训练模型。通用性强、能力高的大模型 https://arxiv.org/abs/2306.05685v4 专业性强、特定数据偏好的小模型 https://arxiv.org/abs/2405.01535 使用大型专家 LLM 随着更强大的 LLMs (如 ChatGPT) 的不断推出，研究者们开始探索使用 LLM 作为评估模型。目前在评估任务上表现最好的仍然是闭源模型 (如 Claude 或 gpt-o)，不过得益于高质量开源模型 (如 Qwen 2.5 ， Command R+ ，以及 ) 快速发展，开源与闭源模型之间的差距正在迅速缩小。 Qwen 2.5 https://hf.co/collections/Qwen/qwen25-66e81a666513e518adb90d9e Command R+ https:/ ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博