AI 推理能力大“翻车”！苹果最新论文：LLM只是复杂的模式匹配，而不是真正的逻辑推理

AI寒武纪 · 公众号 · · 2024-10-13 10:11

文章预览

大语言模型真的可以推理吗？LLM 都是“参数匹配大师”？苹果研究员质疑 LLM 推理能力，称其“不堪一击”！🤯 苹果的研究员 Mehrdad Farajtabar 等人最近发表了一篇论文，对大型语言模型 (LLM) 的推理能力提出了尖锐的质疑，他认为， LLM 的“推理” 能力，其实只是复杂的模式匹配，不堪一击！ 🤯 论文作者研究了包括 Llama、Phi、Gemma、Mistral 等开源模型，以及 GPT-4o 和 o1 系列等闭源模型。需要指出的是，在 OpenAI 发布 GSM8K 的三年里，模型的性能有了显著提升，从 GPT-3 (175B) 的 35% 提升到了现在 30 亿参数模型的 85% 以上，更大的模型甚至超过了 95%。但 Farajtabar 认为，这并不能证明 LLM 的推理能力真的提高了为了测试 LLM 的数学推理能力的极限，Farajtabar 和他的团队开发了一个名为 GSM-Symbolic 的新工具，它可以根据 GSM8K 测试集创建符号模板，从而能够 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博