专栏名称: 量子位
վ'ᴗ' ի 追踪AI行业和技术动态,这里更快一步!关注我们,回复“今天”,更多大新闻等你来发现
今天看啥  ›  专栏  ›  量子位

GPT-4o数学能力跑分直掉50%,上海AI Lab开始给大模型重新出题了

量子位  · 公众号  · AI  · 2024-12-18 18:27
    

文章预览

上海AI实验室司南OpenCompass团队 投稿 量子位 | 公众号 QbitAI 新模型在MATH上 (以数学竞赛为主) 动辄跑分80%甚至90%以上,却一用就废。 这合理吗?? 为了真实检验模型数学推理能力 ,上海人工智能实验室司南OpenCompass团队放大招了。 推出新的复杂数学评测集LiveMathBench,以全新性能指标G-Pass@16 𝘛 来连续评估模型的性能潜力和稳定性。 好家伙!团队在模拟真实用户使用采样策略、重复多次评测大模型的数学推理能力时发现: 大部分的模型平均会有五成以上的性能下降,即使是最强推理模型o1-mini也会下降3成6,更有模型直接下降九成。 具体咋回事儿下面接着看。 全新评价指标: G-Pass@k 研究团队重新思考了大模型评测常用的技术指标,如传统经常采用的Pass@k, Best-of-N, Majority Voting,这些指标主要关注模型的性能潜力,缺少对模型的鲁棒性的评测。 而 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览