文章预览
逻辑推理被认为是当前大模型最难以攻克的一道关卡 。 ▲ 某款大模型关于“9.11和9.9两个数字哪个更大”的回答。图/某款大模型截图 文 | 王晓凯 一道小学数学题,成功难倒了超过一半的大模型。近日,据第一财经报道,经测试,在“9.11和9.9两个数字哪个更大”这个基础的数学题上,国内外12个大模型之中只有4个答对了,剩下8个全都回答错误。在答错者中,还包括了知名的ChatGPT-4o。 数学相关的逻辑推理能力一直是当下大模型的短板。但一道小学生级别的数学题,却成了各家标榜成为“生产力升级”的大模型面前的绊脚石,这在公众舆论之中引发了不小争议。究其原因,是近期公众对于“大模型无所不能”的传统认知与大模型当下仍处在测试探索期的现实之间产生了冲突。 实际上种种迹象显示,大模型当前在纯数学问题上的真实能力应该就处
………………………………