注册
登录
专栏名称:
AI寒武纪
Attention Is All You Need
我也要提交微信公众号
今天看啥
微信公众号rss订阅, 微信rss, 稳定的RSS源
微信公众号RSS订阅方法
B站投稿RSS订阅方法
雪球动态RSS订阅方法
微博RSS订阅方法
微博搜索关键词订阅方法
豆瓣日记 RSS订阅方法
目录
相关文章推荐
德慧智
·
90后小伙自费30万寻找老中医:让中医文化被看见
·
14 小时前
插座APP
·
《小巷人家》大结局!看完这部热播剧终于明白: ...
·
昨天
墨香中华
·
“久病床前无孝子”的下一句,才更经典,只是少有人懂
·
昨天
HR圈内招聘网
·
女学生找工作被HR夸漂亮表示想认识,公司回应
·
昨天
墨香中华
·
最佳幽默微小说:《喝酒》
·
3 天前
今天看啥
›
专栏
›
AI寒武纪
AI数学神话破灭!FrontierMath让LLM集体几乎“交白卷”:正确率不超过2%
AI寒武纪
·
公众号
· · 2024-11-11 08:47
文章预览
大型语言模型(LLM)最近在各种数学benchmark上疯狂刷分,动辄90%以上的正确率,搞得好像要统治数学界一样。然而,Epoch AI看不下去了,联手60多位顶尖数学家,憋了个大招——FrontierMath,一个专治LLM各种不服的全新数学推理测试!结果惨不忍睹,LLM集体“翻车”,正确率竟然不到2%!🤡 看看Epoch AI是怎么做的 FrontierMath是一个用于评估人工智能高级数学推理能力的基准测试。Epoch AI与60多位顶尖数学家合作,创建了数百道原创的、极具挑战性的数学问题,FrontierMath涵盖了现代数学的大多数主要分支——从数论中计算密集型问题到代数几何和范畴论中的抽象问题,目标是捕捉当代数学的概貌,即使是经验丰富的数学专家,也得绞尽脑汁,花费数小时甚至数天才能解出来 FrontierMath具有三个关键的设计原则:1)所有问题都是新的且未发表的,以防止数据 ………………………………
原文地址:
访问原文地址
快照地址:
访问文章快照
总结与预览地址:
访问总结与预览
分享到微博
推荐文章
德慧智
·
90后小伙自费30万寻找老中医:让中医文化被看见
14 小时前
插座APP
·
《小巷人家》大结局!看完这部热播剧终于明白:一个家庭最大的悲哀,就是把日子过反了
昨天
墨香中华
·
“久病床前无孝子”的下一句,才更经典,只是少有人懂
昨天
HR圈内招聘网
·
女学生找工作被HR夸漂亮表示想认识,公司回应
昨天
墨香中华
·
最佳幽默微小说:《喝酒》
3 天前
斌叔OKmath
·
袋鼠思维棋类课程介绍#你好我的小孩##教育聊一聊# 斌叔OKma-20240801105641
3 月前