专栏名称: AI TIME 论道

AI TIME是一群关注人工智能发展，并有思想情怀的青年学者创办的圈子，旨在发扬科学思辨精神，邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索，链接全球AI学者，以辩论的形式探讨人工智能领域的未来。

我也要提交微信公众号

今天看啥

公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词RSS订阅方法

知网期刊RSS订阅方法

即刻RSS订阅方法

OlymMATH：奥林匹克级双语数学基准，R1 正确率仅为 21.2%

AI TIME 论道 · 公众号 · · 2025-04-22 12:30

文章预览

点击蓝字关注我们 AI TIME欢迎每一位AI爱好者的加入！摘要当前数学基准难以有效区分先进大模型的真实推理能力。为此，我们提出OlymMATH——一个奥林匹克级数学基准，包含200道高质量问题，并提供中英双语版本。OlymMATH分为easy和hard两个难度级别，其中easy子集的难度与AIME（美国数学邀请赛）对齐，hard子集则聚焦于更复杂的推理能力。实验表明，即使是最先进的模型，如DeepSeek-R1和o3-mini，在英文版hard数据集上的正确率仅为21.2%和30.3%。论文地址： https://arxiv.org/abs/2503.21380 代码链接： https://github.com/RUCAIBox/OlymMATH 简介近年来，大型语言模型（LLMs）在数学推理任务上取得了显著进展。例如，OpenAI 的 o3-mini、DeepSeek-R1 和 QwQ 等模型已展现出卓越的数学解题能力。然而，现有数学基准（如 MATH 和 AIME）已不足以细粒度地区分最先进模型的 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博