专栏名称: AI有道
一个有情怀、有良心的公众号。AI领域机器学习、深度学习等知识集中营,干货满满。期待与你共同进步!
目录
相关文章推荐
今天看啥  ›  专栏  ›  AI有道

o1/Claude 集体翻车!陶哲轩等 60+ 顶尖数学家合力提出新数学基准,大模型正确率通通不足 2%

AI有道  · 公众号  ·  · 2024-11-12 10:54

文章预览

一水 发自 凹非寺 量子位 | 公众号 QbitAI 让大模型集体吃瘪,数学题正确率通通不到2%! 获大神卡帕西力荐,大模型 新数学基准 来势汹汹—— 一出手,曾在国际数学奥赛中拿下83%解题率的 o1模型 就败下阵来,并且Claude 3.5 Sonnet、GPT-4o、Gemini 1.5 Pro等全都未攻破2%这一防线。 所以,新挑战者到底啥来头?? 一打听,这个新数学基准名为 FrontierMath ,由 Epoch AI 这家非营利研究机构号召 陶哲轩在内的60多 位顶尖数学家 提出。 这群人这次铁了心要给AI上难度,直接 原创了数百道 极具挑战性的数学问题—— 从数论中计算密集型问题到代数几何和范畴论中的抽象问题,涵盖了现代数学的大多数主要分支。 这些题有多难呢?按数学大佬陶哲轩对这项研究的评价说: 大模型们,至少需要再战个几年吧。 同时,卡帕西也表示非常喜欢这一新基准,甚至乐于见到 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览