专栏名称: 量子位
վ'ᴗ' ի 追踪AI行业和技术动态,这里更快一步!关注我们,回复“今天”,更多大新闻等你来发现
今天看啥  ›  专栏  ›  量子位

限定120分钟科研挑战,o1和Claude表现超越人类

量子位  · 公众号  · AI  · 2024-11-25 12:27
    

文章预览

一水 发自 凹非寺 量子位 | 公众号 QbitAI 2小时内,Claude和o1就能超过人类专家平均科研水平。 甚至AI还会偷摸儿“作弊”(doge)。事情是这样的—— 人类 VS AI 科研能力大比拼,也有新的评估基准了。 代号“RE-Bench”,由非营利研究机构METR推出,目的是搞清:当前AI智能体在 自动化科研方面 有多接近人类专家水平。 注意看,一声令下之后,AI和50多位人类专家开始暗自较劲: 前2小时,基于Claude 3.5 Sonnet和o1-preview构建的Agent (智能体) 表现远超人类。 但拐点过后,AI能力增速 (在8小时内) 却始终追不上人类。 时间拉得更长 (至32小时) 之后,研究得出结论, 目前AI智能体更适合并行处理大量独立短实验 。 看完上述结果,知名预测师Eli Lifland认为这 “显著缩短” 了他关于AGI的时间表 (连续两年将2027年作为中位数) ,由此也在Reddit引起热议。 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览