文章预览
ARC Prize 2024:技术报告 ARC Prize 2024: Technical Report https://arxiv.org/pdf/2412.04604 摘要 截至2024年12月5日,ARC-AGI基准测试已经存在五年,并且仍然未被超越。我们相信它目前是世界上最重要的未解决的AI基准测试,因为它旨在衡量对新任务的泛化能力——这是智能的本质——而不是对可以提前准备的任务的技能。今年,我们发起了ARC Prize,这是一项全球竞赛,旨在通过达到85%的目标基准分数来激发新想法并推动AGI的开放进展。结果,在几种前沿的AGI推理技术(包括深度学习引导的程序合成和测试时训练)的推动下,ARC-AGI私有评估集上的最先进分数从33%提高到了55.5%。在本文中,我们调查了顶级方法,回顾了新的开源实现,讨论了ARC-AGI-1数据集的局限性,并分享了从竞赛中获得的关键见解。 1 引言:ARC-AGI François Chollet在2017年首次写到了深度学习的局限性(5
………………………………