主要观点总结
文章介绍了斯坦福大学最新的研究,即在大模型数学推理能力评估方面存在的问题。研究发现,仅仅是更改题目的变量名称和取值范围,模型的准确率就会大幅下降,这表明大模型的数学推理能力并非真正掌握了解题逻辑,而是可能依赖于已存储的题目进行检索。文章还提到了现有的评估基准所面临的问题,包括数据污染和模型水平虚高的问题。为此,斯坦福研究团队提出了Putnam-AXIOM基准来专门评估模型在解决复杂数学问题上的能力。该基准包括原始数据集和变异数据集,并使用自动化评估方法。然而,实验结果并不乐观,多数模型在Putnam-AXIOM数据集上的表现不佳,准确率普遍下降。
关键观点总结
关键观点1: 大模型的数学推理能力可能只是基于检索已存储的题目,而非真正掌握解题逻辑。
更改题目的变量名称和取值范围会导致模型准确率大幅下降。
关键观点2: 现有评估基准存在问题,如数据污染和模型水平虚高。
这些问题使得评估价值降低,需要新的评估方法来衡量模型的真正能力。
关键观点3: 斯坦福大学提出的Putnam-AXIOM基准用于评估模型在解决复杂数学问题上的能力。
该基准包括原始数据集、变异数据集和自动化评估方法,旨在解决现有评估基准的问题。
关键观点4: 多数模型在Putnam-AXIOM数据集上的表现不佳。
这说明大模型的数学能力仍需提升,且提升难度较大。
文章预览
奇月 发自 凹非寺 量子位 | 公众号 QbitAI 只是换一下数学题的变量名称,大模型就可能集体降智?? 斯坦福大学最新研究表明,在他们最新提出的 Putnam-AXIOM 测试集上,仅仅是更换一下原题目的变量名称、变量取值范围,模型的准确率就直线下降。 也就是说,大模型的数学推理能力并不是真正掌握了解题逻辑,很可能只是检索已存储的题目…… 即使是表现最好的o1-preview,它的成绩也从50%下降到了33.96%,GPT-4o、Claude、Deepseek、Qwen等模型也几乎是全军覆没。 要知道,模型推理能力的稳健性可是非常重要的指标,能代表他们是否真正掌握了解决方法: 有网友锐评到:o1的o不会是overfitting的o吧?(doge) 还有热心网友做了解释,他认为模型的搜索空间会随着深度指数级增长,搜索时间越长,搜索的难度也会更高。 全新无污染的数学测试基准 LLM在复杂数
………………………………