专栏名称: Hugging Face
The AI community building the future.
今天看啥  ›  专栏  ›  Hugging Face

社区供稿 | 如何让大模型输出 10k+ 字长文?

Hugging Face  · 公众号  ·  · 2024-08-23 10:30
    

文章预览

随着大语言模型的发展,许多模型已经能够处理超过100k+ tokens的输入上下文。然而,这些模型在生成长文本时,普遍存在输出长度受限的问题。 在实际应用中,为了克服这个问题,人们普遍采用「分而治之」的方法,让模型一段一段地写。这种方法在一定程度上似乎能够解决长文本输出的问题,但往往会导致 1)消耗 tokens 量成倍甚至指数增加;2)前后内容不连贯。 如何才能让模型拥有更强的长文本输出能力呢?我们发现,模型输出长度受限的主要原因在于,监督微调(SFT)数据集缺乏足够长的输出样例。 针对这一问题,我们构建了一个 6000 多条2k-20k words 不等的长输出数据集 LongWriter-6k,并在此基础上,对 GLM-4-9B 进行  SFT微调 和  DPO对齐 。新的模型拥有了能够 生成超过10,000字/词连贯文本的能力 。 下面是我们用 LongWriter-9B 模型,以「黑神话 · ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览