国产推理大模型决战2025考研数学，看看谁第一个上岸？

机器之心 · 公众号 · AI · 2025-01-14 13:49

文章预览

机器之心发布机器之心编辑部随着上个月 2025 研究生考试的结束，最新的考研数学真题成为大语言模型尤其是推理模型的「试炼场」，将考验它们的深度思考能力。业内曾有着这样一种共识：大语言模型在文字水平上的表现令人印象深刻，但说到数学就不甚令人满意了。去年一度火出圈的「9.9 与 9.11」比大小的问题，包括 GPT-4o 在内的很多大模型都翻车了，直到深度推理模型出现后才从根本上改善了这一状况。 OpenAI 发布的 o1 模型在涉及复杂和专业的数理问题方面表现让人印象深刻，大模型在经过一定时间仔细思忖后，回答问题的能力和准确度大幅提升，这种被称为推理侧 Scaling Law 的现象已经成为继续推动大模型能力提升的关键力量。在黄仁勋最新 CES 2025 的演讲中，他也把测试时（即推理）Scaling 形容为大模型发展的三条曲线之一。可以看到， ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博