整理自然语言处理、推荐系统、搜索引擎等AI领域的入门笔记,论文学习笔记和面试资料(关于NLP那些你不知道的事、关于推荐系统那些你不知道的事、NLP百面百搭、推荐系统百面百搭、搜索引擎百面百搭)
今天看啥  ›  专栏  ›  关于NLP那些你不知道的事

LongWriter: 如何让大模型输出 10k+ 字长文?

关于NLP那些你不知道的事  · 公众号  ·  · 2024-08-24 00:00

文章预览

LongWriter: 如何让大模型输出 10k+ 字长文? 论文名称:LongWriter: Unleashing10,000+ Word Generation from Long Context LLMs 论文地址:https://arxiv.org/abs/2408.07055 代码:https://github.com/THUDM/LongWriter 模型: Hugging Face:https://hf.co/THUDM/LongWriter-glm4-9b 魔搭:https://modelscope.cn/models/ZhipuAI/LongWriter-glm4-9b 数据:Hugging Face:https://hf.co/datasets/THUDM/LongWriter-6k 魔搭:https://modelscope.cn/datasets/ZhipuAI/LongWriter-6k 一、引言 随着大语言模型的发展,许多大模型能够处理超过 100,000 tokens 的输入上下文。然而,它们很难生成超过 2,000 个词的输出 。 虽然,在实际应用场景中,开发者为了解决该问题,提出了「分而治之」的方案,即通过多次调用大模型并让大模型一段一段的进行生成。这种方式在一定程度上似乎能够解决长文本输出的问题,但往往会导致 消耗 tokens 量成倍甚至指数增加; 前后内 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览