专栏名称: 奇客Solidot
奇客的资讯,重要的东西
今天看啥  ›  专栏  ›  奇客Solidot

AI 只能完成高等数学新测试问题的不到 2%

奇客Solidot  · 公众号  ·  · 2024-11-15 04:23
    

文章预览

基于大模型的 AI 系统如 GPT-4 和 Gemini 1.5 Pro 能以九成以上的正确率完成传统数学测试问题。但如果设计出一种全新的、大模型不可能训练过的数学难题呢?包括菲尔兹奖得主陶哲轩和 Timothy Gowers 在内的 60 多名数学家合作编写了数百道原创研究级数学难题,推出了新的高等数学基准测试 FrontierMath。这些问题非常具有挑战性,陶哲轩称需要相关领域研究生级别的专业人士合作才能完成。问题被设计为防猜测,如果没有正确的数学推理能力,它们是不可能解出的。顶级的 AI 系统只能完成不到 2% 的 FrontierMath 问题,显示它们的推理能力有局限性。 https://venturebeat.com/ai/ais-math-problem-frontiermath-benchmark-shows-how-far-technology-still-has-to-go/  https://epochai.org/frontiermath 您的赞赏是对我们的鼓励,We’ll be more solid with your donations. ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览