文章预览
CodeIt: Self-Improving Language Models with Prioritized Hindsight Replay https://arxiv.org/pdf/2402.04858 基础: ARC 400题的DSL答案 摘要 大型语言模型越来越多地解决通常被认为需要人类水平推理能力的任务。然而,这些模型在诸如抽象与推理语料库(ARC)等通用智能基准上仍然表现非常差。在本文中,我们将 ARC 视为一个通过示例编程的问题,并引入了一种称为代码迭代(CodeIt)的新颖且可扩展的语言模型自我改进方法。我们的方法在 1)程序采样和事后重标记,以及 2)从优先经验回放中学习之间迭代。通过将一个片段的目标(即给定输入的目标程序输出)重标记为由采样程序产生的实际输出,我们的方法有效地处理了程序合成中奖励的极端稀疏性。将 CodeIt 应用于 ARC 数据集,我们证明了优先事后回放、预训练和数据增强导致了成功的跨任务泛化。CodeIt 是第一个扩展到
………………………………