分不清9.11和9.9大小，暴露大模型逻辑推理能力短板 | 新京报快评

新京报评论 · 公众号 · 时评 · 2024-07-17 15:36

文章预览

逻辑推理被认为是当前大模型最难以攻克的一道关卡。 ▲ 某款大模型关于“9.11和9.9两个数字哪个更大”的回答。图/某款大模型截图文 | 王晓凯一道小学数学题，成功难倒了超过一半的大模型。近日，据第一财经报道，经测试，在“9.11和9.9两个数字哪个更大”这个基础的数学题上，国内外12个大模型之中只有4个答对了，剩下8个全都回答错误。在答错者中，还包括了知名的ChatGPT-4o。数学相关的逻辑推理能力一直是当下大模型的短板。但一道小学生级别的数学题，却成了各家标榜成为“生产力升级”的大模型面前的绊脚石，这在公众舆论之中引发了不小争议。究其原因，是近期公众对于“大模型无所不能”的传统认知与大模型当下仍处在测试探索期的现实之间产生了冲突。实际上种种迹象显示，大模型当前在纯数学问题上的真实能力应该就处 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博