专栏名称: 学术头条

致力于科学传播和学术分享，关注计算机科学、认知科学、人工智能科学、神经科学、脑科学等学科领域。我们从跨学科的角度，围绕“认知智能”向科学界和大众介绍相关领域的前沿话题和深度解读。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

苹果发文质疑：大语言模型根本无法进行逻辑推理

学术头条 · 公众号 · · 2024-10-13 08:18

文章预览

大语言模型（LLM）是真的会数学推理？还是只是在“套路”解题？近年来，大语言模型在各种任务中的表现引起广泛关注。一个核心问题逐渐浮现：这些模型是否真正具备逻辑推理能力，还是仅仅通过复杂的模式匹配来应对看似推理的问题？尤其是在数学推理任务中，模型的表现究竟是在模拟人类思维，还是仅仅通过数据模式匹配得出答案？日前，来自苹果公司的 Iman Mirzadeh 及其研究团队提出了一个名为 GSM-Symbolic 的新基准，针对多个开源模型（如 Llama、Phi、Gemma、Mistral）和闭源模型（如 GPT-4o、o1 系列）进行了大规模评估。结果显示，当问题中的数值或名字变化时，模型的会表现出显著的波动。此外，随着问题难度的提升（如增加更多子句），模型的表现迅速下降，这表明这些模型在推理复杂问题时非常脆弱。研究团队认为，这种表现下降 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博