陶哲轩联手60多位数学家出题，世界顶尖模型通过率仅2%！专家级数学基准，让AI再苦战数年

哲学园 · 公众号 · 哲学 · 2024-11-13 00:00

文章预览

转自：新智元如涉版权请加编辑微信iwish89联系哲学园鸣谢新智元报道编辑：Hjh 【新智元导读】 Epoch AI推出数学基准FrontierMath，目前前沿模型测试成功率均低于2%！OpenAI研究科学家Noam Brown说道：「我喜欢看到新评估的前沿模型通过率如此之低。这种感觉就像一觉醒来，外面是一片崭新的雪地，完全没有人迹。」或许，FrontierMath测试成功率突破的那一天，会是AI发展过程中一个全新的里程碑。数学为评估复杂推理提供了一个独特而合适的测试平台。它需要一定的创造力和精确的逻辑链条——通常涉及复杂的证明，这些证明必须缜密地筹划和执行。同时，数学还允许对结果进行客观验证。在铺天盖地的宣传中，LLM看起来已经攻破了数学大关。但果真如此吗？不久前，来自苹果的研究院团队证明，就算是在数学这些基础科学方面最先进的o1模型 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博