CMU清华教LLM练成数学高手，LeanSTaR训练模型边思考边证明，登顶新SOTA

晓飞的算法工程笔记 · 公众号 · · 2024-08-12 12:31

文章预览

新智元报道编辑：乔杨耳朵【新智元导读】 LLM数学水平不及小学生怎么办？CMU清华团队提出了Lean-STaR训练框架，在语言模型进行推理的每一步中都植入CoT，提升了模型的定理证明能力，成为miniF2F上的新SOTA。如果想训练LLM证明定理的能力，你会怎么做？既然模型可以通过海量语料学会生成文本，那如果我们能喂给它足够数量的形式证明数据，定理证明能力自然水到渠成？然而，我们看到的事实是，无论用符号形式还是自然语言，GPT等大模型的推理能力都不如人意。两句话，让LLM逻辑推理瞬间崩溃！最新「爱丽丝梦游仙境」曝出GPT、Claude等重大缺陷就像 GPT-4o自信表示13.11比13.8大一样，AI再聪明却依旧会在简单的算术上犯蠢。然而，LLM的数学能力弱，不代表自动化的定理证明器对数学没用。前段时间刚刚被破解的「忙碌海狸」问题中，4 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

考研斯基师兄 · 考研数学公式｜高数+线代+概率论

2 天前

考研斯基师兄 · 考研数学公式｜高数+线代+概率论

2 天前

考研斯基师兄 · 11-12月考研作息表：每天11h！

3 天前

东莞本地宝 · 2025年东莞考研报名网上确认即将开始！入口戳→

3 天前

东莞本地宝 · 2025年东莞考研报名网上确认即将开始！入口戳→

3 天前

考研斯基师兄 · 武忠祥｜25十七堂课笔记

5 天前

考研斯基师兄 · 武忠祥｜25十七堂课笔记

5 天前

小白学视觉 · 即插即用！Batch Transformer

4 月前

蛋先生工作室 · 8月10日淘汰鸡行情

2 月前

药渡 · 医药科创板破零，大家却沉默了

1 月前