今天看啥  ›  专栏  ›  AI寒武纪

AI 推理能力大“翻车”!苹果最新论文:LLM只是复杂的模式匹配,而不是真正的逻辑推理

AI寒武纪  · 公众号  ·  · 2024-10-13 10:11

文章预览

大语言模型真的可以推理吗?LLM 都是“参数匹配大师”?苹果研究员质疑 LLM 推理能力,称其“不堪一击”!🤯 苹果的研究员 Mehrdad Farajtabar 等人最近发表了一篇论文,对大型语言模型 (LLM) 的推理能力提出了尖锐的质疑,他认为, LLM 的“推理” 能力,其实只是复杂的模式匹配,不堪一击!  🤯 论文作者研究了包括 Llama、Phi、Gemma、Mistral 等开源模型,以及 GPT-4o 和 o1 系列等闭源模型。需要指出的是,在 OpenAI 发布 GSM8K 的三年里,模型的性能有了显著提升,从 GPT-3 (175B) 的 35% 提升到了现在 30 亿参数模型的 85% 以上,更大的模型甚至超过了 95%。但 Farajtabar 认为,这并不能证明 LLM 的推理能力真的提高了 为了测试 LLM 的数学推理能力的极限,Farajtabar 和他的团队开发了一个名为  GSM-Symbolic  的新工具,它可以根据 GSM8K 测试集创建符号模板,从而能够 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览