专栏名称: 量子位
վ'ᴗ' ի 追踪AI行业和技术动态,这里更快一步!关注我们,回复“今天”,更多大新闻等你来发现
今天看啥  ›  专栏  ›  量子位

大模型权威测试被曝翻车!更偏袒GPT-4等闭源模型,连提示词都区别对待

量子位  · 公众号  · AI  · 2024-07-11 11:47
    

文章预览

白交 发自 凹非寺 量子位 | 公众号 QbitAI 大模型权威测试,翻车了?! HuggingFace都在用的 MMLU-PRO ,被扒出评测方法更偏向闭源模型,被网友直接在GitHub Issue提出质疑。 此前 MMLU原始版本 早已经被各家大模型刷爆了,谁考都是高分, 对前沿模型已经没有了区分度 。 号称更强大、更具挑战线性多任务语言基准MMLU-Pro,成了业界对大模型性能的重要参考。 但结果没想到的是,现在有人扒出其在 采样参数、系统提示和答案提取 等方面设置不公平,存在一些令人震惊的差异。 随便对系统提示词做了个小修改,直接将开源阵营的Llama-3-8b-q8的性能提高了10分?! emmm……就问大模型跑分到底还能不能信了? 被扒偏向闭源模型 这是源于Reddit上一位ML/AI爱好者的意外发现。 还特意做了个免责声明,自己只是感兴趣,并不是ML研究员(Doge) 出于好奇想了解它是如 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览