抵挡AI的最后一个基准！CAIS发布50万美元悬赏令：汇集人类顶尖专家，专攻高难度问题

机器学习研究组订阅 · 公众号 · AI · 2024-09-23 19:22

文章预览

OpenAI最近发布的o1-preview可以说是再次震撼了整个大模型届，在各个主流高难度基准测试中都展现出了惊人的性能，甚至能在博士级别的科学问答环节上超越人类专家。不过，o1模型的超强实力也带来了一个问题：现有的基准测试已经无法评估模型的能力了，需要新的、更难的基准。最近，Scale AI与CAIS（人工智能安全中心，Center for AI Safety）计划合作推出 Humanity's Last Exam （人类的最终测验），号称将要构建大型语言模型届最难的开源基准；此前CAIS发布的MMLU目前仍然是Huggingface社区中下载次数最多的基准数据集。两个机构总共筹集了50万来收集「有史以来最难、最广泛的」问题，面向所有人类专家来收集那些尖锐的问题，以将人工智能模型推向极限：前50个被选中的问题，每题将获得5000美元；后面的500个问题，每题将获得500美元。问题提交：https:/ ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

爱可可-爱生活 · 晚安～ #晚安# -20241123230805

昨天

爱可可-爱生活 · 【DarkFlare：一个隐蔽的TCP-over-CDN隧道工具-20241122201447

3 天前

爱可可-爱生活 · 【cuEquivariance：NVIDIA开发的高性能神经网络-20241119141036

6 天前

爱可可-爱生活 · 今日推介(第1594期)：1000名个体的生成式智能体仿真、非平-20241119061244

6 天前

AIGC开放社区 · 超GPT-4o，1240亿参数！最强开源多模态模型 Pixtral Large！

6 天前

AIGC开放社区 · 超GPT-4o，1240亿参数！最强开源多模态模型 Pixtral Large！

6 天前

外土司资讯 · 集装箱被烧毁！又是这类货物...

3 月前

轻松家长 · 2025小升初已经拉开序幕？聊聊周末的几个活动

3 月前

转化子 · 【周四德享讲堂】来听听创新多组学技术在化妆品成分挖掘及科学展示的应用

2 月前