文章预览
LongWriter: 如何让大模型输出 10k+ 字长文? 论文名称:LongWriter: Unleashing10,000+ Word Generation from Long Context LLMs 论文地址:https://arxiv.org/abs/2408.07055 代码:https://github.com/THUDM/LongWriter 模型: Hugging Face:https://hf.co/THUDM/LongWriter-glm4-9b 魔搭:https://modelscope.cn/models/ZhipuAI/LongWriter-glm4-9b 数据:Hugging Face:https://hf.co/datasets/THUDM/LongWriter-6k 魔搭:https://modelscope.cn/datasets/ZhipuAI/LongWriter-6k 一、引言 随着大语言模型的发展,许多大模型能够处理超过 100,000 tokens 的输入上下文。然而,它们很难生成超过 2,000 个词的输出 。 虽然,在实际应用场景中,开发者为了解决该问题,提出了「分而治之」的方案,即通过多次调用大模型并让大模型一段一段的进行生成。这种方式在一定程度上似乎能够解决长文本输出的问题,但往往会导致 消耗 tokens 量成倍甚至指数增加; 前后内
………………………………