文章预览
上海AI实验室司南OpenCompass团队 投稿 量子位 | 公众号 QbitAI 新模型在MATH上 (以数学竞赛为主) 动辄跑分80%甚至90%以上,却一用就废。 这合理吗?? 为了真实检验模型数学推理能力 ,上海人工智能实验室司南OpenCompass团队放大招了。 推出新的复杂数学评测集LiveMathBench,以全新性能指标G-Pass@16 𝘛 来连续评估模型的性能潜力和稳定性。 好家伙!团队在模拟真实用户使用采样策略、重复多次评测大模型的数学推理能力时发现: 大部分的模型平均会有五成以上的性能下降,即使是最强推理模型o1-mini也会下降3成6,更有模型直接下降九成。 具体咋回事儿下面接着看。 全新评价指标: G-Pass@k 研究团队重新思考了大模型评测常用的技术指标,如传统经常采用的Pass@k, Best-of-N, Majority Voting,这些指标主要关注模型的性能潜力,缺少对模型的鲁棒性的评测。 而
………………………………