社区供稿 | 如何让大模型输出 10k+ 字长文？

Hugging Face · 公众号 · · 2024-08-23 10:30

文章预览

随着大语言模型的发展，许多模型已经能够处理超过100k+ tokens的输入上下文。然而，这些模型在生成长文本时，普遍存在输出长度受限的问题。在实际应用中，为了克服这个问题，人们普遍采用「分而治之」的方法，让模型一段一段地写。这种方法在一定程度上似乎能够解决长文本输出的问题，但往往会导致 1）消耗 tokens 量成倍甚至指数增加；2）前后内容不连贯。如何才能让模型拥有更强的长文本输出能力呢？我们发现，模型输出长度受限的主要原因在于，监督微调（SFT）数据集缺乏足够长的输出样例。针对这一问题，我们构建了一个 6000 多条2k-20k words 不等的长输出数据集 LongWriter-6k，并在此基础上，对 GLM-4-9B 进行 SFT微调和 DPO对齐。新的模型拥有了能够生成超过10,000字/词连贯文本的能力。下面是我们用 LongWriter-9B 模型，以「黑神话 · ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博