o1/Claude 集体翻车！陶哲轩等 60+ 顶尖数学家合力提出新数学基准，大模型正确率通通不足 2%

AI有道 · 公众号 · · 2024-11-12 10:54

文章预览

一水发自凹非寺量子位 | 公众号 QbitAI 让大模型集体吃瘪，数学题正确率通通不到2%！获大神卡帕西力荐，大模型新数学基准来势汹汹—— 一出手，曾在国际数学奥赛中拿下83%解题率的 o1模型就败下阵来，并且Claude 3.5 Sonnet、GPT-4o、Gemini 1.5 Pro等全都未攻破2%这一防线。所以，新挑战者到底啥来头？？一打听，这个新数学基准名为 FrontierMath ，由 Epoch AI 这家非营利研究机构号召陶哲轩在内的60多位顶尖数学家提出。这群人这次铁了心要给AI上难度，直接原创了数百道极具挑战性的数学问题—— 从数论中计算密集型问题到代数几何和范畴论中的抽象问题，涵盖了现代数学的大多数主要分支。这些题有多难呢？按数学大佬陶哲轩对这项研究的评价说：大模型们，至少需要再战个几年吧。同时，卡帕西也表示非常喜欢这一新基准，甚至乐于见到 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

大河票务网 · “去吹一场野的风” 王赫野2024巡回演唱会-上海/广州/武汉...定！档！官！宣！

4 月前

柴知道Lite · 为什么油门踏板是塑料的，刹车踏板是金属的？【柴知道Lite】

4 月前

摄影技巧入门教程 · 山顶拍照姿势，氛围感拉满了！！！

4 月前

In hotel · 【独家揭秘】巴黎奥运盛宴背后的酒店业奇迹：中国酒店业的启示录！

3 月前

艾瑞咨询 · 2024年中国全龄儿童健康成长新趋势白皮书

3 月前