国产推理大模型决战2025考研数学，看看谁第一个上岸？

机器学习实验室 · 公众号 · · 2025-01-20 16:36

文章预览

国产大模型转自：机器之心随着上个月 2025 研究生考试的结束，最新的考研数学真题成为大语言模型尤其是推理模型的「试炼场」，将考验它们的深度思考能力。业内曾有着这样一种共识：大语言模型在文字水平上的表现令人印象深刻，但说到数学就不甚令人满意了。去年一度火出圈的「9.9 与 9.11」比大小的问题，包括 GPT-4o 在内的很多大模型都翻车了，直到深度推理模型出现后才从根本上改善了这一状况。 OpenAI 发布的 o1 模型在涉及复杂和专业的数理问题方面表现让人印象深刻，大模型在经过一定时间仔细思忖后，回答问题的能力和准确度大幅提升，这种被称为推理侧 Scaling Law 的现象已经成为继续推动大模型能力提升的关键力量。在黄仁勋最新 CES 2025 的演讲中，他也把测试时（即推理）Scaling 形容为大模型发展的三条曲线之一。可以看到 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

普象工业设计小站 · 耗资344亿的最大木造建筑，日本万博“指环王”，建完就要拆？！

7 小时前

普象工业设计小站 · 值得你花两分钟看完！当你治愈别人的同时，也在治愈自己……

昨天

普象工业设计小站 · San值狂掉！脸部彩绘合集，看半天没找到脸在哪？？又美又惊悚！

2 天前

普象工业设计小站 · 日本教科书的审美设计，有没有被治愈到？

3 天前

机智猫 · 新功能抢先偷跑，真我GT6亮相ChinaJoy

6 月前

ZOL中关村在线 · 小屏影像旗舰谁最强？三款热门手机拍照对比

2 月前