专栏名称: 机器之心
专业的人工智能媒体和产业服务平台
今天看啥  ›  专栏  ›  机器之心

谷歌发布BIG-Bench超难基准:DeepSeek-R1得分6.8,只有o3-mini超过10分

机器之心  · 公众号  · AI  · 2025-02-28 12:16
    

文章预览

机器之心报道 编辑:Panda 随着 AI 能力的提升,一个常见的话题便是基准不够用了——一个新出现的基准用不了多久时间就会饱和,比如 Replit CEO Amjad Masad 就预计 2023 年 10 月提出的编程基准 SWE-bench 将在 2027 年饱和。 也因此,为了更加准确地评估 AI 模型的能力,不断有研究团队构建出新的数据集和基准,比如我们前段时间报道过的 ZeroBench 和 HLE(人类的最后考试) ,它们都带有大量当前的 AI 模型难以解决的难题。 近日,谷歌也发布了一个高难度基准:BIG-Bench Extra Hard,简称 BBEH。从名字也能看出来,这个基准非常难(Extra Hard)并且与久负盛名的 BIG-Bench 和 BIG-Bench Hard(BBH)关系密切。 论文标题:BIG-Bench Extra Hard 论文地址:https://arxiv.org/pdf/2502.19187 数据地址:https://github.com/google-deepmind/bbeh 正如其论文一作  Mehran Kazemi 指出的那样,相比于 BIG-Bench ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览