专栏名称: 新智元
智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
今天看啥  ›  专栏  ›  新智元

陶哲轩联手60多位数学家出题,世界顶尖模型通过率仅2%!专家级数学基准,让AI再苦战数年

新智元  · 公众号  · AI  · 2024-11-11 13:05

文章预览

   新智元报道   编辑:Hjh 【新智元导读】 Epoch AI推出数学基准FrontierMath,目前前沿模型测试成功率均低于2%!OpenAI研究科学家Noam Brown说道:「我喜欢看到新评估的前沿模型通过率如此之低。这种感觉就像一觉醒来,外面是一片崭新的雪地,完全没有人迹。」或许,FrontierMath测试成功率突破的那一天,会是AI发展过程中一个全新的里程碑。 数学为评估复杂推理提供了一个独特而合适的测试平台。它需要一定的创造力和精确的逻辑链条——通常涉及复杂的证明,这些证明必须缜密地筹划和执行。同时,数学还允许对结果进行客观验证。 在铺天盖地的宣传中,LLM看起来已经攻破了数学大关。但果真如此吗? 不久前,来自苹果的研究院团队证明,就算是在数学这些基础科学方面最先进的o1模型,其卓越的表现也是来源于对特定数据集针对性的持续优化 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览