专栏名称: 量子位
վ'ᴗ' ի 追踪AI行业和技术动态,这里更快一步!关注我们,回复“今天”,更多大新闻等你来发现
目录
相关文章推荐
今天看啥  ›  专栏  ›  量子位

奥赛级AI基准来了:难倒所有模型,GPT-4o仅考34分,上海交大出品

量子位  · 公众号  · AI  · 2025-03-31 16:07
    

文章预览

美团AGI团队 投稿 量子位 | 公众号 QbitAI 为了进一步挑战AI系统,大家已经开始研究一些最困难的竞赛中的问题,特别是国际奥林匹克竞赛和算法挑战。 但目前尚无奥林匹克级别的、多学科的基准,能够全面评估综合解决问题的能力,以全面检验人工智能的综合认知能力。 上海交通大学生成式人工智能实验室 (GAIR Lab) 的研究团队推出多学科认知推理基准OlympicArena,即使是GPT-4o 也只达到了 34.01% 的整体准确率,而其他开源模型的整体准确率也难以达到20%。 这一鲜明的对比凸显了他们基准测试的巨大难度和严谨性,证明了它在突破当前 AI 能力界限方面的有效性。 OlympicArena不仅是一套题库,还做了一些创新,比如为避免模型“刷题”,团队引入数据泄漏检测技术,采用N-gram预测检测数据泄露,确认99.6%的题目未被预训练数据污染。 除此之外还提供了一 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览