全体AI大模型的数学几乎都是0分？陶哲轩和Karpathy推荐的这个测试有多难

Crossin的编程教室 · 公众号 · · 2024-11-18 13:31

文章预览

夕小瑶科技说原创作者 | 小鹿最近，出现了一个数学基准集，让大模型们的数学集体翻车，正确率还不到2%。就是这家非营利研究机构Epoch AI，它集合了世界最顶尖的60多位数学家（包括国际数学奥林匹克（IMO）问题编写者和菲尔兹奖得主）发布了FrontierMath，专治各种LLM不服的全新的数学基准测试。 FrontierMath包含数百个原创数学问题，涵盖了数学大多数的分支方向，从计算密集型的数论，到抽象的代数几何和范畴论问题。大模型动不动在现在的数学benchmark就是接近100%的正确率，好像真的已经统计数学界了，FrontierMath的出现，就是要考考这些大语言模型到底多厉害。结果，大语言模型全体暴露，正确率竟然不到2%，这与GSM-8K和MATH等其他流行的数学基准测试形成鲜明对比，在那里这些行业最模型现在实现了超过90%的准确率。。。基准地址：https://ep ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

环保人 · 危废标签软件免费！联网危废平台免费！三合一打印机1000

8 小时前

内蒙古生态环境 · 媒体纵览 | 我国将进一步加强危险废物环境治理（新华社）

15 小时前

内蒙古生态环境 · 媒体纵览 | 我国将进一步加强危险废物环境治理（新华社）

15 小时前

吉林生态环境 · 我国将进一步加强危险废物环境治理（新华社）

16 小时前

环保人 · 事故应急池容积计算时消防废水量如何有根有据地计算？每个参数都找得到文件来源？！

昨天

环保人 · 危废托盘在未沾染危废的情况下，可以返还原产废单位作周转使用？省厅新近明确回复

2 天前

药事纵横 · 2023年全球药品销售额TOP20

8 月前

信达金工与产品研究 · 深度学习揭秘系列之一：基于量价与基本面结合的深度学习选股策略

6 月前

信达金工与产品研究 · 深度学习揭秘系列之一：基于量价与基本面结合的深度学习选股策略

6 月前

物华弥新 · 博行派遣丨茶室·奏乐玩法介绍

4 月前

代谢组metabolome · （11.5）30本分子生物实验经典书籍大放送！

3 月前