专栏名称: 新智元
智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
今天看啥  ›  专栏  ›  新智元

抵挡AI的最后一个基准!CAIS发布50万美元悬赏令:汇集人类顶尖专家,专攻高难度问题

新智元  · 公众号  · AI  · 2024-09-23 12:57

文章预览

   新智元报道   编辑:LRS 【新智元导读】 随着AI模型的水平不断提高,现有的基准测试也被逐一攻破。CAIS和Scale AI共同发起了属于人类的最后一搏,悬赏50万美元,把最高难度、只有最顶尖的人才能回答出的问题收集起来作为基准,是否能挡住AI模型的攻势? OpenAI最近发布的o1-preview可以说是再次震撼了整个大模型届,在各个主流高难度基准测试中都展现出了惊人的性能,甚至能在博士级别的科学问答环节上超越人类专家。 不过,o1模型的超强实力也带来了一个问题:现有的基准测试已经无法评估模型的能力了,需要新的、更难的基准。 最近,Scale AI与CAIS(人工智能安全中心,Center for AI Safety)计划合作推出 Humanity's Last Exam (人类的最终测验),号称将要构建大型语言模型届最难的开源基准;此前CAIS发布的MMLU目前仍然是Huggingface社区中下载次 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览