用通俗的语言普及最新LLM进展! 欢迎大家推荐论文!
今天看啥  ›  专栏  ›  大语言模型论文跟踪

AgentWrite:为什么你的模型生成的内容长度总是不超过2K?

大语言模型论文跟踪  · 公众号  ·  · 2024-08-19 22:01

文章预览

AgentWrite:为什么你的模型生成的内容长度总是不超过2K? 发布时间:2024 年 08 月 13 日 LongWriter: Unleashing 10,000+ Word Generation from Long Context LLMs 当前的长上下文大型语言模型 (LLM) 虽能处理多达 100,000 个令牌的输入,但在生成超过 2,000 字的输出时仍显吃力。我们通过实验发现,模型的生成能力受限于其在监督微调 (SFT) 期间所接触的样本长度。简言之,现有 SFT 数据集中长输出示例的匮乏限制了模型的输出能力。为此,我们推出了 AgentWrite,一个基于代理的流水线,它将超长生成任务分解为子任务,使 LLM 能够生成超过 20,000 字的连贯文本。借助 AgentWrite,我们创建了 LongWriter-6k 数据集,包含 6,000 个 SFT 数据,输出长度从 2k 到 32k 字不等。通过整合这一数据集进行模型训练,我们成功将模型的输出长度扩展至 10,000 字以上,且保持了输出质量。此外,我们还 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览