主要观点总结
本文介绍了在ARC-AGI挑战上,大模型的表现及存在的问题。文章指出,大模型在解决带有色块的网格阵列题目时,表现受网格规模影响显著。特别是o3模型,在网格数量达到1024个后表现明显下降。文章还分析了大模型在解决此类问题时的思考方式和人类存在的差异,并探讨了视觉在解决此类问题中的重要性。最后,介绍了即将推出的ARC-AGI-2对o3构成的挑战。
关键观点总结
关键观点1: 大模型在ARC挑战中的表现受网格规模影响。
随着网格规模的增大,大模型的表现越差,这一现象在o3等模型中普遍存在。
关键观点2: 米哥的研究发现。
米哥通过观察ARC题目发现,网格规模增大导致大模型表现下降的原因可能与问题的维度、模型的推理方式有关。
关键观点3: 大模型与人类解决此类问题的差异。
大模型在解决此类问题时,思考方式和人类存在差别。特别是在处理视觉信息时,人类能够看出位置关系,而大模型则是以数字矩阵的形式处理。
关键观点4: ARC-AGI-2对o3的挑战。
即将推出的ARC-AGI-2可能会对o3构成重大挑战,即使在高计算量模式下,o3的得分也可能会降低到30%以下。
文章预览
克雷西 发自 凹非寺 量子位 | 公众号 QbitAI o3在超难推理任务ARC-AGI上的成绩,属实给人类带来了不少震撼。 但有人专门研究了它不会做的题之后,有了更有趣的发现—— o3之所以不会做这些题,原因 可能不是因为太难,而是题目的规模太大了 。 来自英国的ML工程师Mikel Bober-Irizar (不妨叫他米哥) ,对ARC题目进行了细致观察。 结果米哥发现,题目中的 网格规模越大,大模型的表现也就越差 。 而且不仅是o3,o1和o1 mini,还有隔壁的Claude,都出现了这样的现象。 米哥的这项研究,引起了人们对大模型工作机制的许多讨论。 世界首位全职提示词工程师 Riley Goodside 看到后,也认为这是一项很好的研究。 大模型被困在了网格规模上 还是先简单回顾一下ARC挑战,题目带有色块的网格阵列 (以文本形式表述,用数字代表颜色) ,大模型需要观察每道题目
………………………………