GPT-4o数学能力跑分直掉50%，上海AI Lab开始给大模型重新出题了

量子位 · 公众号 · AI · 2024-12-18 18:27

文章预览

上海AI实验室司南OpenCompass团队投稿量子位 | 公众号 QbitAI 新模型在MATH上（以数学竞赛为主）动辄跑分80%甚至90%以上，却一用就废。这合理吗？？为了真实检验模型数学推理能力，上海人工智能实验室司南OpenCompass团队放大招了。推出新的复杂数学评测集LiveMathBench，以全新性能指标G-Pass@16 𝘛 来连续评估模型的性能潜力和稳定性。好家伙！团队在模拟真实用户使用采样策略、重复多次评测大模型的数学推理能力时发现：大部分的模型平均会有五成以上的性能下降，即使是最强推理模型o1-mini也会下降3成6，更有模型直接下降九成。具体咋回事儿下面接着看。全新评价指标: G-Pass@k 研究团队重新思考了大模型评测常用的技术指标，如传统经常采用的Pass@k, Best-of-N, Majority Voting，这些指标主要关注模型的性能潜力，缺少对模型的鲁棒性的评测。而 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博