大模型权威测试被曝翻车！更偏袒GPT-4等闭源模型，连提示词都区别对待

量子位 · 公众号 · AI · 2024-07-11 11:47

文章预览

白交发自凹非寺量子位 | 公众号 QbitAI 大模型权威测试，翻车了？！ HuggingFace都在用的 MMLU-PRO ，被扒出评测方法更偏向闭源模型，被网友直接在GitHub Issue提出质疑。此前 MMLU原始版本早已经被各家大模型刷爆了，谁考都是高分，对前沿模型已经没有了区分度。号称更强大、更具挑战线性多任务语言基准MMLU-Pro，成了业界对大模型性能的重要参考。但结果没想到的是，现在有人扒出其在采样参数、系统提示和答案提取等方面设置不公平，存在一些令人震惊的差异。随便对系统提示词做了个小修改，直接将开源阵营的Llama-3-8b-q8的性能提高了10分？！ emmm……就问大模型跑分到底还能不能信了？被扒偏向闭源模型这是源于Reddit上一位ML/AI爱好者的意外发现。还特意做了个免责声明，自己只是感兴趣，并不是ML研究员（Doge）出于好奇想了解它是如 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

宝玉xp · VITA-1.5：VITA-1.5 是一款类似于 GPT-4o -20250107021013

19 小时前

黄建同学 · 其实现在也没有标准的中文翻译，翻译成代理或者智能体的都有，但我潜-20250106214557

昨天

爱可可-爱生活 · [AS]《TangoFlux: Super Fast and F-20250105061449

2 天前

爱可可-爱生活 · TangoFlux：用AI快速实现高质量的文生音频这项由新加坡科-20250104092848

3 天前

量子位 · Grok新生图功能大翻车，画人总是画不对，网友喊话马斯克：给谷歌道歉

4 天前

大家车言论 · 试完这车，她就买了

3 月前

中国科学报 · 成果全球关注，26岁“轮椅博士生”却说：我不是中国版霍金

2 月前