专栏名称: AI TIME 论道
AI TIME是一群关注人工智能发展,并有思想情怀的青年学者创办的圈子,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,链接全球AI学者,以辩论的形式探讨人工智能领域的未来。
今天看啥  ›  专栏  ›  AI TIME 论道

OlymMATH:奥林匹克级双语数学基准,R1 正确率仅为 21.2%

AI TIME 论道  · 公众号  ·  · 2025-04-22 12:30
    

文章预览

点击蓝字 关注我们 AI TIME欢迎每一位AI爱好者的加入!   摘要 当前数学基准难以有效区分先进大模型的真实推理能力。为此,我们提出OlymMATH——一个奥林匹克级数学基准,包含200道高质量问题,并提供中英双语版本。OlymMATH分为easy和hard两个难度级别,其中easy子集的难度与AIME(美国数学邀请赛)对齐,hard子集则聚焦于更复杂的推理能力。实验表明,即使是最先进的模型,如DeepSeek-R1和o3-mini,在英文版hard数据集上的正确率仅为21.2%和30.3%。 论文地址:       https://arxiv.org/abs/2503.21380 代码链接 :      https://github.com/RUCAIBox/OlymMATH 简介 近年来,大型语言模型(LLMs)在数学推理任务上取得了显著进展。例如,OpenAI 的 o3-mini、DeepSeek-R1 和 QwQ 等模型已展现出卓越的数学解题能力。然而,现有数学基准(如 MATH 和 AIME)已不足以细粒度地区分最先进模型的 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览