今天看啥  ›  专栏  ›  机器学习实验室

国产推理大模型决战2025考研数学,看看谁第一个上岸?

机器学习实验室  · 公众号  ·  · 2025-01-20 16:36
    

文章预览

 国产大模型  转自: 机器之心 随着上个月 2025 研究生考试的结束,最新的考研数学真题成为大语言模型尤其是推理模型的「试炼场」,将考验它们的深度思考能力。 业内曾有着这样一种共识:大语言模型在文字水平上的表现令人印象深刻,但说到数学就不甚令人满意了。去年一度火出圈的「9.9 与 9.11」比大小的问题,包括 GPT-4o 在内的很多大模型都翻车了,直到深度推理模型出现后才从根本上改善了这一状况。 OpenAI 发布的 o1 模型在涉及复杂和专业的数理问题方面表现让人印象深刻,大模型在经过一定时间仔细思忖后,回答问题的能力和准确度大幅提升,这种被称为推理侧 Scaling Law 的现象已经成为继续推动大模型能力提升的关键力量。在黄仁勋最新 CES 2025 的演讲中,他也把测试时(即推理)Scaling 形容为大模型发展的三条曲线之一。 可以看到 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览