限定120分钟科研挑战，o1和Claude表现超越人类

量子位 · 公众号 · AI · 2024-11-25 12:27

文章预览

一水发自凹非寺量子位 | 公众号 QbitAI 2小时内，Claude和o1就能超过人类专家平均科研水平。甚至AI还会偷摸儿“作弊”（doge）。事情是这样的—— 人类 VS AI 科研能力大比拼，也有新的评估基准了。代号“RE-Bench”，由非营利研究机构METR推出，目的是搞清：当前AI智能体在自动化科研方面有多接近人类专家水平。注意看，一声令下之后，AI和50多位人类专家开始暗自较劲：前2小时，基于Claude 3.5 Sonnet和o1-preview构建的Agent （智能体）表现远超人类。但拐点过后，AI能力增速（在8小时内）却始终追不上人类。时间拉得更长（至32小时）之后，研究得出结论，目前AI智能体更适合并行处理大量独立短实验。看完上述结果，知名预测师Eli Lifland认为这 “显著缩短” 了他关于AGI的时间表（连续两年将2027年作为中位数），由此也在Reddit引起热议。 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

微软亚洲研究院 · StreamMind：解锁全帧率流媒体视频实时理解新路径

12 小时前

财联社AI daily · AI生态的USB接口？阿里、腾讯全面支持MCP

11 小时前

财联社AI daily · AI生态的USB接口？阿里、腾讯全面支持MCP

11 小时前

申妈的朋友圈 · 南阿里，北字节，AI人才竞争进入深水区

21 小时前

宝玉xp · 看到 X 上有网友用 GPT-4o 根据画的女生内衣草稿倒推理出-20250409130159

昨天

黄建同学 · VS Code代理模式终于来了，还支持调用mcp↓代理模式引入了-20250408122224

2 天前

生信石头 · 今晚直播 | 主题：TBtools功能与BioAnno问答平台

6 月前

上海发布 · 【便民】铁路12306推出同车接续功能，与中转换乘有何不同？

6 月前

杭州日报 · 顾客一进门就要合影！杭州这家饭店老板，藏不住了！当年一出手曾轰动全国......

2 周前