专栏名称: 新智元

智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

抵挡AI的最后一个基准！CAIS发布50万美元悬赏令：汇集人类顶尖专家，专攻高难度问题

新智元 · 公众号 · AI · 2024-09-23 12:57

文章预览

新智元报道编辑：LRS 【新智元导读】随着AI模型的水平不断提高，现有的基准测试也被逐一攻破。CAIS和Scale AI共同发起了属于人类的最后一搏，悬赏50万美元，把最高难度、只有最顶尖的人才能回答出的问题收集起来作为基准，是否能挡住AI模型的攻势？ OpenAI最近发布的o1-preview可以说是再次震撼了整个大模型届，在各个主流高难度基准测试中都展现出了惊人的性能，甚至能在博士级别的科学问答环节上超越人类专家。不过，o1模型的超强实力也带来了一个问题：现有的基准测试已经无法评估模型的能力了，需要新的、更难的基准。最近，Scale AI与CAIS（人工智能安全中心，Center for AI Safety）计划合作推出 Humanity's Last Exam （人类的最终测验），号称将要构建大型语言模型届最难的开源基准；此前CAIS发布的MMLU目前仍然是Huggingface社区中下载次 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

宝玉xp · 可以试试 AI 帮你做，推荐试试 v0.dev or bolt.-20241120084728

3 天前

黄建同学 · #谷歌聊天机器人竟回复称人类去死吧##ai# 确实有这个回复，一-20241119135326

4 天前

AIGC开放社区 · 超GPT-4o，1240亿参数！最强开源多模态模型 Pixtral Large！

5 天前

AIGC开放社区 · 超GPT-4o，1240亿参数！最强开源多模态模型 Pixtral Large！

5 天前

黄建同学 · NEO AI 推出 NEO：首个自主机器学习工程师！ NEO -20241117081140

6 天前

黄建同学 · Github 从小白到高手↓#程序员##编程# 太宝藏了！里面还-20241117154638

6 天前

武志红 · 这是东亚小孩最怕听到的3个字

4 月前

军事纵横 · 俄不小心闯祸，100块卫星碎片逼近“天宫”，中国一招化险为夷

4 月前

作家张萌 · 想要出众没有捷径，深耕自己才是关键

4 月前

商图药讯 · 【倒计时2周】诚邀参会！第四届燃石精准诊疗生态峰会最新议程已上线！

3 月前