文章预览
近年来,大语言模型 (LLM) 在理解和生成复杂文本时展现出强大的能力,能够处理高达 100,000 个 tokens 的输入,但在生成超过 2,000 词的连贯输出时,往往会遇到困难。 主要的原因之一是因为 SFT(监督式微调)数据集长输出样本的稀缺性。 研究表明,模型的最大输出长度与其在 SFT 阶段接触的样本长度有显著的正相关性。换句话说,尽管模型已经学会了如何理解和处理长文本,但它们还没有充分学习如何生成同样长度的文本。 为了解决这一问题,清华大学联合智谱 AI 基于 AgentWrite 技术构建了名为 LongWriter-6k 的数据集,包含 6,000 个 SFT 数据样本,输出长度从 2k 到 32k 个单词不等。 该数据集目前已上线至 HyperAI超神经官网数据集版块,支持一键 input。 数据集地址: https://go.hyper.ai/77byR 随后,该研究团队还利用 LongWriter-6k,基于 GLM-4-9B 进行训练,得到
………………………………