今天看啥  ›  专栏  ›  硅星GenAI

模型评测不是用来刷榜的,智源要用“辩论赛”的方式找回评测该有的样子

硅星GenAI  · 公众号  ·  · 2024-12-23 18:06
    

文章预览

作者 | 李京亚 邮箱 | lijingya@pingwest.com 刚过去的人工智能国际顶会NeurIPS 2024上,7000余篇投稿都与大模型评测相关。 模型评测并非大模型火热后才有的方向。去年GenAI早期阶段,一些模型评测榜单因反复出现刷榜行为而备受指摘,比如由上交、清华和爱丁堡大学研究员推出的开源评测榜单C-Eval,就因频繁出现厂商做出的新晋大模型排在GPT-4之前,而被推上风口。自然语言处理社区SuperCLUE,去年曾是国内被曝光最多的大模型榜单之一,也曾因为科大讯飞的排名而引发争论。 这些榜单的最大争议聚焦于一点,“评测集应该是封闭的,避免被作弊,但一个好的大模型评测应该是过程公开的评测,方便大家对评测做监督。”但当时只有两家国内机构具备将大模型评测过程公开的实力,一是上海人工智能实验室;另一家就是智源。 一般而言,评测一个大模 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览