谷歌发布BIG-Bench超难基准：DeepSeek-R1得分6.8，只有o3-mini超过10分

大模型智能 · 公众号 · · 2025-03-01 00:00

文章预览

大模型智能｜分享来源 | 机器之心随着 AI 能力的提升，一个常见的话题便是基准不够用了——一个新出现的基准用不了多久时间就会饱和，比如 Replit CEO Amjad Masad 就预计 2023 年 10 月提出的编程基准 SWE-bench 将在 2027 年饱和。也因此，为了更加准确地评估 AI 模型的能力，不断有研究团队构建出新的数据集和基准，比如我们前段时间报道过的 ZeroBench 和 HLE（人类的最后考试），它们都带有大量当前的 AI 模型难以解决的难题。近日，谷歌也发布了一个高难度基准：BIG-Bench Extra Hard，简称 BBEH。从名字也能看出来，这个基准非常难（Extra Hard）并且与久负盛名的 BIG-Bench 和 BIG-Bench Hard（BBH）关系密切。论文标题：BIG-Bench Extra Hard 论文地址：https://arxiv.org/pdf/2502.19187 数据地址：https://github.com/google-deepmind/bbeh 正如其论文一作 Mehran Kazemi 指出的那样 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

纪念币预约信息 · 赚翻了！龙钞全面上涨，这些号码稳了！

4 小时前

艾邦高分子 · 4月8-12日，2025艾邦东南亚新材料论坛暨商务考察活动将在越南举办！附最新名单！

8 小时前

艾邦高分子 · 化学分离弹性纤维与尼龙！Aquafil首个示范工厂投入使用

昨天

高分子科学前沿 · 王中林院士/吴治峄研究员《AM》：多模态指形触觉传感器，用于多方向力和材料识别多模态指形触觉传感器，赋能多维力感知及材料识别

2 天前

西藏生态环境保护 · 地市动态 | 精准服务进企业帮扶指导解企忧

1 周前

西藏生态环境保护 · 地市动态 | 精准服务进企业帮扶指导解企忧

1 周前

中国书画诗词院 · “ 粗菜淡饭 … ” -20250326170313

8 小时前