文章预览
近日,司南 OpenCompass 研究团队发布了一个 开源 的 All-in- one Judge Model —— CompassJudger 系列, 包含 1.5B 、 7B 、 14B 和 3 2B 共四个量级的模型,其中 32B 版本更是具备 GPT-4o-0806 95%以上的 Judge 能力,支持 pair-wise/point-wise 多种评价方式,更能输出详细的评价理由。 技术报告地址 https://arxiv.org/abs/2410.16256 HuggingFace 模型权重地址 https:/ /huggingface.co/opencompass GitHub 地址 https://github.com/open-compass/CompassJudger JudgerBench 榜单地址 https://huggingface.co/spaces/opencompass/judgerbench_leaderboard 什么是 All-in-one Judge Model? 在进行主观评测的过程中,通常需要一个 Judge Model 来对待测模型的回复进行评分或比较,从而代替人类来进行这一评价工作,得到待测模型在各类主观题上的得分。过去,这往往是由能力较强的闭源模型如 GPT4 来进行的,GPT4 也因此成为了在 AlignBench,AlpacaEv
………………………………