AgentWrite：为什么你的模型生成的内容长度总是不超过2K?

深度学习与NLP · 公众号 · · 2024-08-21 08:00

文章预览

1. 为什么要研究 LongWriter 随着大语言模型的发展，越来越多的大语言模型都具备了长上下文能力，甚至有的达到了100万token。但是，相较于大家关注的海量输入，大模型的生成长篇幅的内容时就显得力不从心了。比如，如上图，作者在各种模型上要求生成超过2000字的内容时，基本上都没有成功。随着提示词中要求输出的内容长度的增加，输出的最终长度始终停留在2K左右。但是，在对WildChat的用户日志分析时发现，有 1% 的用户明确要求生成的内容长度要超过2K，这证明生成长篇幅内容也是大家迫切需要的能力之一。 2. 为什么大多数模型只能生成2K左右的内容？为了探究为什么几乎所有的模型都只能生成2K左右的数据这一问题，作者进行了一系列实验。首先，创建了LongWrite-Ruler评估工具，来探索大语言模型（LLMs）的生成长度上限。接着，分析了生 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博