模型评测不是用来刷榜的，智源要用“辩论赛”的方式找回评测该有的样子

硅星GenAI · 公众号 · · 2024-12-23 18:06

文章预览

作者｜李京亚邮箱｜ lijingya@pingwest.com 刚过去的人工智能国际顶会NeurIPS 2024上，7000余篇投稿都与大模型评测相关。模型评测并非大模型火热后才有的方向。去年GenAI早期阶段，一些模型评测榜单因反复出现刷榜行为而备受指摘，比如由上交、清华和爱丁堡大学研究员推出的开源评测榜单C-Eval，就因频繁出现厂商做出的新晋大模型排在GPT-4之前，而被推上风口。自然语言处理社区SuperCLUE，去年曾是国内被曝光最多的大模型榜单之一，也曾因为科大讯飞的排名而引发争论。这些榜单的最大争议聚焦于一点，“评测集应该是封闭的，避免被作弊，但一个好的大模型评测应该是过程公开的评测，方便大家对评测做监督。”但当时只有两家国内机构具备将大模型评测过程公开的实力，一是上海人工智能实验室；另一家就是智源。一般而言，评测一个大模 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博