专栏名称: 大模型智能
机器学习算法、深度学习算法、自然语言处理等干货知识集中营
今天看啥  ›  专栏  ›  大模型智能

谷歌发布BIG-Bench超难基准:DeepSeek-R1得分6.8,只有o3-mini超过10分

大模型智能  · 公众号  ·  · 2025-03-01 00:00
    

文章预览

大模型智能|分享 来源 | 机器之心 随着 AI 能力的提升,一个常见的话题便是基准不够用了——一个新出现的基准用不了多久时间就会饱和,比如 Replit CEO Amjad Masad 就预计 2023 年 10 月提出的编程基准 SWE-bench 将在 2027 年饱和。 也因此,为了更加准确地评估 AI 模型的能力,不断有研究团队构建出新的数据集和基准,比如我们前段时间报道过的  ZeroBench  和  HLE(人类的最后考试) ,它们都带有大量当前的 AI 模型难以解决的难题。 近日,谷歌也发布了一个高难度基准:BIG-Bench Extra Hard,简称 BBEH。从名字也能看出来,这个基准非常难(Extra Hard)并且与久负盛名的 BIG-Bench 和 BIG-Bench Hard(BBH)关系密切。 论文标题:BIG-Bench Extra Hard  论文地址:https://arxiv.org/pdf/2502.19187  数据地址:https://github.com/google-deepmind/bbeh 正如其论文一作  Mehran Kazemi 指出的那样 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览