专栏名称: CreateAMind
ALLinCreateAMind.AGI.top , 前沿AGI技术探索,论文跟进,复现验证,落地实验。 鼓励新思想的探讨及验证等。 探索比大模型更优的智能模型。
今天看啥  ›  专栏  ›  CreateAMind

开源CodeIt:具有优先后见之明重放的自我改进语言模型 for ARC

CreateAMind  · 公众号  ·  · 2024-09-30 12:07

文章预览

CodeIt: Self-Improving Language Models with Prioritized Hindsight Replay https://arxiv.org/pdf/2402.04858 基础: ARC 400题的DSL答案 摘要 大型语言模型越来越多地解决通常被认为需要人类水平推理能力的任务。然而,这些模型在诸如抽象与推理语料库(ARC)等通用智能基准上仍然表现非常差。在本文中,我们将 ARC 视为一个通过示例编程的问题,并引入了一种称为代码迭代(CodeIt)的新颖且可扩展的语言模型自我改进方法。我们的方法在 1)程序采样和事后重标记,以及 2)从优先经验回放中学习之间迭代。通过将一个片段的目标(即给定输入的目标程序输出)重标记为由采样程序产生的实际输出,我们的方法有效地处理了程序合成中奖励的极端稀疏性。将 CodeIt 应用于 ARC 数据集,我们证明了优先事后回放、预训练和数据增强导致了成功的跨任务泛化。CodeIt 是第一个扩展到 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览