AgentWrite：为什么你的模型生成的内容长度总是不超过2K?

大语言模型论文跟踪 · 公众号 · · 2024-08-19 22:01

文章预览

AgentWrite：为什么你的模型生成的内容长度总是不超过2K? 发布时间：2024 年 08 月 13 日 LongWriter: Unleashing 10,000+ Word Generation from Long Context LLMs 当前的长上下文大型语言模型 (LLM) 虽能处理多达 100,000 个令牌的输入，但在生成超过 2,000 字的输出时仍显吃力。我们通过实验发现，模型的生成能力受限于其在监督微调 (SFT) 期间所接触的样本长度。简言之，现有 SFT 数据集中长输出示例的匮乏限制了模型的输出能力。为此，我们推出了 AgentWrite，一个基于代理的流水线，它将超长生成任务分解为子任务，使 LLM 能够生成超过 20,000 字的连贯文本。借助 AgentWrite，我们创建了 LongWriter-6k 数据集，包含 6,000 个 SFT 数据，输出长度从 2k 到 32k 字不等。通过整合这一数据集进行模型训练，我们成功将模型的输出长度扩展至 10,000 字以上，且保持了输出质量。此外，我们还 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

刀法研究所 · 【提前收藏】参会指南 | 破界·2024刀法年度品效峰会

昨天

正商阅读 · 好的人生，离不开这三个字

昨天

正商阅读 · 好的人生，离不开这三个字

昨天

考研斯基师兄 · 考研最后1个月，是真的很苦。

3 天前

考研斯基师兄 · 考研最后1个月，是真的很苦。

3 天前

出彩写作 · 初写材料，怎么入手？

4 天前

刀法研究所 · 1.6 万私域用户卖出千万 GMV，怎么做？｜破界·2024刀法年度品效峰会

5 天前

凤凰网房产上海 · 上海市住建委通报6月“问题突出建筑工地” 象屿路劲都匯云境上榜

4 月前

时光音乐SHOW · 【上海】即将火热开票！陶喆2024上海演唱会，“没有后悔为爱日夜去跟随，那个疯狂的人是我....”今年也要去现场看陶吉吉！

3 月前

曲线猎手 · 9月12日：大V盘前策略合集

2 月前