文章预览
TACKLING THE ABSTRACTION AND REASONING COR-PUS WITH VISION TRANSFORMERS: THE IMPORTANCEOF 2D REPRESENTATION, POSITIONS, AND OBJECTS 用视觉转换器解决抽象和推理问题:2D表象、位置和物体的重要性 https://arxiv.org/pdf/2410.06405 https://github.com/khalil-research/ViTARC 摘要 抽象与推理语料库(ARC)是一个专注于人工智能系统视觉推理评估的流行基准。在其原始框架中,ARC任务要求通过少量输入输出训练对,在小型二维图像上解决程序合成问题。在本文中,我们采用了 最近流行的数据驱动方法来研究AR C,并探讨视觉转换器( ViT )是否能够学习任务中隐含的从输入图像到输出图像的映射。我们发现,尽管在每个任务上训练了一百万个示例,但ViT——这一图像领域的最先进的模型——在大多数ARC任务上仍然表现不佳。这表明 ViT架构存在固有的表示缺陷,使其无法发现ARC任务背后简单的结构化映射
………………………………