今天看啥  ›  专栏  ›  机器学习研究组订阅

抵挡AI的最后一个基准!CAIS发布50万美元悬赏令:汇集人类顶尖专家,专攻高难度问题

机器学习研究组订阅  · 公众号  · AI  · 2024-09-23 19:22

文章预览

OpenAI最近发布的o1-preview可以说是再次震撼了整个大模型届,在各个主流高难度基准测试中都展现出了惊人的性能,甚至能在博士级别的科学问答环节上超越人类专家。 不过,o1模型的超强实力也带来了一个问题:现有的基准测试已经无法评估模型的能力了,需要新的、更难的基准。 最近,Scale AI与CAIS(人工智能安全中心,Center for AI Safety)计划合作推出 Humanity's Last Exam  (人类的最终测验),号称将要构建大型语言模型届最难的开源基准;此前CAIS发布的MMLU目前仍然是Huggingface社区中下载次数最多的基准数据集。 两个机构总共筹集了50万来收集「有史以来最难、最广泛的」问题,面向所有人类专家来收集那些尖锐的问题,以将人工智能模型推向极限:前50个被选中的问题,每题将获得5000美元;后面的500个问题,每题将获得500美元。 问题提交:https:/ ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览