专栏名称: Hugging Face
The AI community building the future.
今天看啥  ›  专栏  ›  Hugging Face

社区供稿|还在 GPT-4o 进行评测么?快来试试开源评价大模型 CompassJudger

Hugging Face  · 公众号  ·  · 2024-10-24 10:30
    

文章预览

近日,司南 OpenCompass 研究团队发布了一个  开源 的 All-in- one Judge Model —— CompassJudger 系列, 包含  1.5B 、 7B 、 14B  和 3 2B  共四个量级的模型,其中  32B  版本更是具备 GPT-4o-0806 95%以上的 Judge 能力,支持 pair-wise/point-wise 多种评价方式,更能输出详细的评价理由。 技术报告地址 https://arxiv.org/abs/2410.16256 HuggingFace 模型权重地址 https:/ /huggingface.co/opencompass GitHub 地址 https://github.com/open-compass/CompassJudger JudgerBench 榜单地址 https://huggingface.co/spaces/opencompass/judgerbench_leaderboard 什么是 All-in-one Judge Model? 在进行主观评测的过程中,通常需要一个 Judge Model 来对待测模型的回复进行评分或比较,从而代替人类来进行这一评价工作,得到待测模型在各类主观题上的得分。过去,这往往是由能力较强的闭源模型如 GPT4 来进行的,GPT4 也因此成为了在 AlignBench,AlpacaEv ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览