专栏名称: 人工智能学家
致力成为权威的人工智能科技媒体和前沿科技研究机构
今天看啥  ›  专栏  ›  人工智能学家

苹果发文质疑:大语言模型根本无法进行逻辑推理

人工智能学家  · 公众号  · AI  · 2024-10-13 17:03

文章预览

大语言模型(LLM)是真的会数学推理?还是只是在“套路”解题? 近年来,大语言模型在各种任务中的表现引起广泛关注。一个核心问题逐渐浮现: 这些模型是否真正具备逻辑推理能力,还是仅仅通过复杂的模式匹配来应对看似推理的问题? 尤其是在数学推理任务中,模型的表现究竟是在模拟人类思维,还是仅仅通过数据模式匹配得出答案? 日前,来自苹果公司的 Iman Mirzadeh 及其研究团队提出了一个名为 GSM-Symbolic 的新基准,针对多个开源模型(如 Llama、Phi、Gemma、Mistral)和闭源模型(如 GPT-4o、o1 系列)进行了大规模评估。 结果显示, 当问题中的数值或名字变化时,模型的会表现出显著的波动 。此外,随着问题难度的提升(如增加更多子句),模型的表现迅速下降,这表明这些模型在推理复杂问题时非常脆弱。 研究团队认为,这种表现下降 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览