谷歌发布BIG-Bench超难基准：DeepSeek-R1得分6.8，只有o3-mini超过10分

机器之心 · 公众号 · AI · 2025-02-28 12:16

文章预览

机器之心报道编辑：Panda 随着 AI 能力的提升，一个常见的话题便是基准不够用了——一个新出现的基准用不了多久时间就会饱和，比如 Replit CEO Amjad Masad 就预计 2023 年 10 月提出的编程基准 SWE-bench 将在 2027 年饱和。也因此，为了更加准确地评估 AI 模型的能力，不断有研究团队构建出新的数据集和基准，比如我们前段时间报道过的 ZeroBench 和 HLE（人类的最后考试），它们都带有大量当前的 AI 模型难以解决的难题。近日，谷歌也发布了一个高难度基准：BIG-Bench Extra Hard，简称 BBEH。从名字也能看出来，这个基准非常难（Extra Hard）并且与久负盛名的 BIG-Bench 和 BIG-Bench Hard（BBH）关系密切。论文标题：BIG-Bench Extra Hard 论文地址：https://arxiv.org/pdf/2502.19187 数据地址：https://github.com/google-deepmind/bbeh 正如其论文一作 Mehran Kazemi 指出的那样，相比于 BIG-Bench ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

宝玉xp · 回复@宝玉xp:Grok 3 还是好玩一点：“当你灰心丧气的时候-20250301130540

13 小时前

AI前线 · GPT-4.5 发布！OpenAI 史上最大最贵也可能是最慢那个，全网都在骂大街啦

昨天

AI前线 · 被Github 上的Stable Diffusion 坑惨了？失业、欠帐、恐慌，工程师怒喷：AI软件毁了我！

2 天前

量子位 · 火山引擎AI一体机DeepSeek版来了！开箱即用，小时级部署，还有大模型应用经验加持

2 天前

爱可可-爱生活 · 本文创新性地提出了基于快速傅里叶变换的 FFTNet 框架，通过-20250227052952

2 天前

深圳特区报 · 一觉醒来！深圳姑娘拿下创造历史的银牌！

7 月前

中国华电 · 聚焦！多家主流媒体关注中国华电万张绿证助力“零碳进博”

4 月前

中国华电 · 聚焦！多家主流媒体关注中国华电万张绿证助力“零碳进博”

4 月前

法商实验室 · 原创导读｜多起交易未依法进行反垄断申报，美国司法部对私募股权投资机构KKR公司提起反垄断诉讼

1 月前