今天看啥  ›  专栏  ›  人工智能学家

最高138.7分!国产大模型「考研数学」成绩单出炉,哪家AI能上岸?

人工智能学家  · 公众号  · AI  · 2025-01-16 17:45
    

文章预览

来源:学术头条 整理:学术君 高考、考研数学,旨在考察学生的逻辑推理素养,每年都会难倒一大片准备上岸的学子。 那么,对于被训练成「像人类一样思考」的人工智能(AI)系统,尤其是近期讨论颇多的 o1 类推理模型而言, 「数学」这门考试到底难不难呢? 更进一步说, 如果同时参加 2025 考研的数学考试,国内头部推理模型与 OpenAI o1 的差距又有多大呢? 日前,来自 清华大学人工智能研究院基础模型研究中心 的团队,便晒出了国内外 13 个模型(基础模型、深度推理模型)在 2025 年考研数学(一、二、三)上交出的答卷—— 直白一点说: o1 最强,但对国产头部模型 (如 GLM-zero-preview、QwQ) 的领先优势不大。 具体而言,这些推理模型的 2025 考研数学成绩全部达到了 120+,最强模型  OpenAI o1 的分数达到了惊人的 141.3 分 (平均),在总计 66 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览