文章预览
在自然语言处理领域,长上下文语言模型(LLMs)一直是研究的热点。 当前的长上下文大语言模型(LLMs)虽然能处理多达 10 万个标记的输入,但生成的输出却很难超过 2000 字这样一个不算长的长度。 今天,我们要介绍的是由清华大学数据挖掘研究组(THUDM)开发的 LongWriter 项目,它能够生成超过 10,000 字的长文本内容! 什么是 LongWriter? LongWriter 是一种专为处理长上下文而设计的语言模型。它的核心目标是解决传统语言模型在处理超长文本时遇到的挑战。 通过优化模型架构和训练方法,LongWriter 能够在保持高质量输出的同时,生成超长文本。 LongWriter 目前有两个版本,分别为: LongWriter-glm4-9b 和 LongWriter-llama3.1-8b 目前,官方还在 agentwrite/ 目录下开源了 AgentWrite,这是一种自动化的超长输出数据的构建流程。 如何使用? from transformers import AutoTokenize
………………………………