文章预览
这是 让 LLM 来评判 系列文章的第二篇,敬请关注系列文章: 基础概念 选择 LLM 评估模型 设计你自己的评估 prompt 评估你的评估结果 奖励模型相关内容 技巧与提示 使用现有的 LLM 评估模型时,你可以选择: 通用性强、能力高的大模型 、 专业性强、特定数据偏好的小模型 、或自行训练模型。 通用性强、能力高的大模型 https://arxiv.org/abs/2306.05685v4 专业性强、特定数据偏好的小模型 https://arxiv.org/abs/2405.01535 使用大型专家 LLM 随着更强大的 LLMs (如 ChatGPT) 的不断推出,研究者们开始探索使用 LLM 作为评估模型。目前在评估任务上表现最好的仍然是闭源模型 (如 Claude 或 gpt-o),不过得益于高质量开源模型 (如 Qwen 2.5 , Command R+ ,以及 ) 快速发展,开源与闭源模型之间的差距正在迅速缩小。 Qwen 2.5 https://hf.co/collections/Qwen/qwen25-66e81a666513e518adb90d9e Command R+ https:/
………………………………