专栏名称: 新智元
智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
今天看啥  ›  专栏  ›  新智元

全球顶尖AI来考公,不会推理全翻车!致命缺陷曝光,被倒数5%人类碾压

新智元  · 公众号  · AI  · 2025-04-18 13:31
    

主要观点总结

文章介绍了CMU团队针对公考行测中的逻辑推理题打造的挑战基准VisualPuzzles,实测发现顶尖大模型表现不佳,人类TOP选手却能接近满分。文章还提到了模型在纯逻辑推理方面的不足,以及现有多模态基准测试的问题。通过VisualPuzzles数据集,研究者揭示了三个不等式:知识不等于推理、更大的模型不等于更好的推理、更多的token不等于更好的推理。文章还分析了模型推理策略的差异和不足。

关键观点总结

关键观点1: VisualPuzzles挑战基准的提出及实测结果

CMU团队针对公考行测中的逻辑推理题打造了挑战基准VisualPuzzles,实测发现顶尖大模型表现不佳,人类TOP选手表现优秀。该基准旨在测试AI的推理能力,而非专业知识。

关键观点2: 现有模型的推理能力评估

当前的多模态基准测试往往混淆推理能力与领域专业知识,无法准确评估模型的通用推理能力。研究者通过VisualPuzzles数据集揭示了模型在纯逻辑推理方面的不足。

关键观点3: 三个关键的“不等式”

研究者通过VisualPuzzles数据集揭示了三个关键的不等式:知识不等于推理、更大的模型不等于更好的推理、更多的token不等于更好的推理。这些不等式强调了区分推理能力与领域专业知识的重要性,以及现有模型在逻辑推理方面的局限。

关键观点4: 模型的推理策略分析

文章分析了模型在解决逻辑推理题时采用的推理策略,包括分支推理和回溯验证等。研究发现,这些策略在某些情况下可能有效,但在纯逻辑推理任务中效果有限。

关键观点5: 模型在逻辑推理中的局限和未来方向

文章指出了模型在逻辑推理中的局限,包括对空间信息的理解不稳定、缺乏深层逻辑推理能力等。同时,文章也提出了未来的研究方向,包括如何强化模型的推理结构、设计新型网络或推理模块等。


文章预览

   新智元报道   编辑:编辑部 ZJH 【新智元导读】 公考 行测中的逻辑推理题,是不少考生的噩梦,这次,CMU团队就此为基础,打造了一套逻辑谜题挑战。实测后发现,o1、Gemini-2.5 Pro、Claude-3.7-Sonnet这些顶尖大模型全部惨败!最强的AI正确率也只有57.5%,而人类TOP选手却能接近满分。 就在昨天,OpenAI憋出个大招,放出了o3和o4-mini。 据称,这些模型首次实现了「用图像思考」,堪称视觉推理巅峰之作。 而有这样一类图像推理题,让国内每年都有几百万考生受尽折磨。 看到下面这些熟悉的题,参加过国考或省考的你,是不是DNA动了? 图形推理题,在公务员考试中常常被考生吐槽:题难、奇葩,逻辑怪异,套路满满,甚至十分「反人类」! 既然如今的AI这么强,让人类考生直呼变态的图形推理,它们做得出吗? CMU的研究者,这次就用公务员考试真题 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览