LongWriter：基于LLM代理可以将输出窗口大小扩展到10,000+个单词

数据派THU · 公众号 · 大数据 · 2024-08-28 17:00

文章预览

来源：DeepHub IMBA ‍ 本文约3000字，建议阅读 9 分钟本文为你介绍使用一个基于代理的流程，它将超长生成任务分解为子任务。 LLM可以处理长达100,000个token的输入，但在生成超过2,000词的适度长度输出时仍然面临困难，因为模型的有效生成长度本质上受到其在监督微调(SFT)过程中所见样本的限制。为解决这个问题，本文的作者引入了AgentWrite，这是一个基于代理的流程，它将超长生成任务分解为子任务，使现成的LLM能够生成超过20,000词的连贯输出。主要贡献如下: 介绍了限制当前(长上下文)LLM输出长度的主要因素，即SFT数据中对输出长度的约束。提出AgentWrite，使用分而治之的方法和现成的LLM自动构建具有超长输出的SFT数据。并且使用这种方法，构建了LongWriter-6k数据集。将LongWriter-6k数据集进行SFT训练，成功地将现有模型的输出窗口大小扩展到10,000+ ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博