专栏名称: 关于NLP那些你不知道的事

整理自然语言处理、推荐系统、搜索引擎等AI领域的入门笔记，论文学习笔记和面试资料（关于NLP那些你不知道的事、关于推荐系统那些你不知道的事、NLP百面百搭、推荐系统百面百搭、搜索引擎百面百搭）

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

LongWriter: 如何让大模型输出 10k+ 字长文？

关于NLP那些你不知道的事 · 公众号 · · 2024-08-24 00:00

文章预览

LongWriter: 如何让大模型输出 10k+ 字长文？论文名称：LongWriter: Unleashing10，000+ Word Generation from Long Context LLMs 论文地址：https://arxiv.org/abs/2408.07055 代码：https://github.com/THUDM/LongWriter 模型： Hugging Face：https://hf.co/THUDM/LongWriter-glm4-9b 魔搭：https://modelscope.cn/models/ZhipuAI/LongWriter-glm4-9b 数据：Hugging Face：https://hf.co/datasets/THUDM/LongWriter-6k 魔搭：https://modelscope.cn/datasets/ZhipuAI/LongWriter-6k 一、引言随着大语言模型的发展，许多大模型能够处理超过 100,000 tokens 的输入上下文。然而，它们很难生成超过 2,000 个词的输出。虽然，在实际应用场景中，开发者为了解决该问题，提出了「分而治之」的方案，即通过多次调用大模型并让大模型一段一段的进行生成。这种方式在一定程度上似乎能够解决长文本输出的问题，但往往会导致消耗 tokens 量成倍甚至指数增加；前后内 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博