今天看啥  ›  专栏  ›  魔搭ModelScope社区

666条数据,训练LongWriter模型,写万字长文!模型&数据集均开源!

魔搭ModelScope社区  · 公众号  ·  · 2024-09-29 20:25

文章预览

前言 大模型的上下文(Context)支持越来越长的背景下,让通用的大模型遵循指令来保障长文本输出的长度,依然是一个挑战。来自智谱的LongWriter-GLM4-9B模型( https://www.modelscope.cn/models/ZhipuAI/LongWriter-glm4-9b ),就是希望针对超长输出(10000+ words)场景,训练一个能胜任该任务的模型,该工作可以参考论文: https://arxiv.org/pdf/2408.07055 [1]。  论文中指出,包括GPT-4o,Llama-3.1-70B,Claude 3.5 Sonnet在内的这些业界领先模型,在用户指定了所需输出长度(required output length)的情况下,其最大输出长度仍无法满足要求。例如,针对“写一篇关于罗马帝国历史的10000字文章”的要求,所有这些通用模型在输出长度上均无法超过2000字。 通过对训练SFT数据的分析,对于这个现象一个比较合理的解释是,模型所能生成的最大长度,会受限于其SFT数据中存在的输出长度上限 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览