社区供稿｜还在 GPT-4o 进行评测么？快来试试开源评价大模型 CompassJudger

Hugging Face · 公众号 · · 2024-10-24 10:30

文章预览

近日，司南 OpenCompass 研究团队发布了一个开源的 All-in- one Judge Model —— CompassJudger 系列，包含 1.5B 、 7B 、 14B 和 3 2B 共四个量级的模型，其中 32B 版本更是具备 GPT-4o-0806 95%以上的 Judge 能力，支持 pair-wise/point-wise 多种评价方式，更能输出详细的评价理由。技术报告地址 https://arxiv.org/abs/2410.16256 HuggingFace 模型权重地址 https:/ /huggingface.co/opencompass GitHub 地址 https://github.com/open-compass/CompassJudger JudgerBench 榜单地址 https://huggingface.co/spaces/opencompass/judgerbench_leaderboard 什么是 All-in-one Judge Model? 在进行主观评测的过程中，通常需要一个 Judge Model 来对待测模型的回复进行评分或比较，从而代替人类来进行这一评价工作，得到待测模型在各类主观题上的得分。过去，这往往是由能力较强的闭源模型如 GPT4 来进行的，GPT4 也因此成为了在 AlignBench，AlpacaEv ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博