专栏名称: Crossin的编程教室
编程世界的新手村。 这里有可能是最简单的 Python 入门教程。 每天5分钟,轻松学编程。
今天看啥  ›  专栏  ›  Crossin的编程教室

全体AI大模型的数学几乎都是0分?陶哲轩和Karpathy推荐的这个测试有多难

Crossin的编程教室  · 公众号  ·  · 2024-11-18 13:31
    

文章预览

夕小瑶科技说 原创 作者 | 小鹿 最近,出现了一个数学基准集,让大模型们的数学集体翻车,正确率还不到2%。 就是这家非营利研究机构Epoch AI,它集合了世界最顶尖的60多位数学家(包括国际数学奥林匹克(IMO)问题编写者和菲尔兹奖得主)发布了FrontierMath,专治各种LLM不服的全新的数学基准测试。 FrontierMath包含数百个原创数学问题,涵盖了数学大多数的分支方向,从计算密集型的数论,到抽象的代数几何和范畴论问题。 大模型动不动在现在的数学benchmark就是接近100%的正确率,好像真的已经统计数学界了,FrontierMath的出现,就是要考考这些大语言模型到底多厉害。 结果,大语言模型全体暴露,正确率竟然不到2%,这与GSM-8K和MATH等其他流行的数学基准测试形成鲜明对比,在那里这些行业最模型现在实现了超过90%的准确率。。。 基准地址:https://ep ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览