开源CodeIt:具有优先后见之明重放的自我改进语言模型 for ARC

CreateAMind · 公众号 · · 2024-09-30 12:07

文章预览

CodeIt: Self-Improving Language Models with Prioritized Hindsight Replay https://arxiv.org/pdf/2402.04858 基础： ARC 400题的DSL答案摘要大型语言模型越来越多地解决通常被认为需要人类水平推理能力的任务。然而，这些模型在诸如抽象与推理语料库（ARC）等通用智能基准上仍然表现非常差。在本文中，我们将 ARC 视为一个通过示例编程的问题，并引入了一种称为代码迭代（CodeIt）的新颖且可扩展的语言模型自我改进方法。我们的方法在 1）程序采样和事后重标记，以及 2）从优先经验回放中学习之间迭代。通过将一个片段的目标（即给定输入的目标程序输出）重标记为由采样程序产生的实际输出，我们的方法有效地处理了程序合成中奖励的极端稀疏性。将 CodeIt 应用于 ARC 数据集，我们证明了优先事后回放、预训练和数据增强导致了成功的跨任务泛化。CodeIt 是第一个扩展到 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

新闻广角 · 港股蜜雪冰城暗盘大涨近30%

2 小时前

新闻广角 · 小米SU7 Ultra今晚发布，雷军发文：首次冲击豪车市场，非常激动

昨天

新闻广角 · 新剧上线首集就要vip，爱奇艺被指吃相难看，平台、剧方回应

2 天前

新闻广角 · 演员杨幂自曝“钙化”，“钙化”是啥意思？

2 天前

新闻广角 · 太火爆！飙涨600%

2 天前

机器学习算法与自然语言处理 · LLM的「母语」是什么？

8 月前

有新Newin · 深度｜吴恩达最新演讲——AI 四大趋势

3 月前

36氪 · 叶国富与于东来首次会面，双方聊了什么？丨36氪首发

2 月前