注册登录

专栏名称: 魔搭ModelScope社区

阿里巴巴达摩院模型开源社区ModelScope官方账号

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

目录

相关文章推荐

东方网 · 上海火车站再+1！1月5日开通运营，与两条地 ... · 14 小时前

上海发布 · 【提示】上海高院发布22个涉网络游戏知识产权 ... · 2 天前

东方网 · 上海发布12条重要措施！推动建设生育友好型社会！ · 2 天前

大华那点事 · 桃浦全新地铁上盖商业综合体即将竣工！ · 3 天前

上海发布 · 虹桥枢纽出租汽车短途模式元旦起正式运营！ · 3 天前

今天看啥 › 专栏 › 魔搭ModelScope社区

666条数据，训练LongWriter模型，写万字长文！模型&数据集均开源！

魔搭ModelScope社区 · 公众号 · · 2024-09-29 20:25

文章预览

前言大模型的上下文(Context)支持越来越长的背景下，让通用的大模型遵循指令来保障长文本输出的长度，依然是一个挑战。来自智谱的LongWriter-GLM4-9B模型（ https://www.modelscope.cn/models/ZhipuAI/LongWriter-glm4-9b ），就是希望针对超长输出（10000+ words）场景，训练一个能胜任该任务的模型，该工作可以参考论文： https://arxiv.org/pdf/2408.07055 [1]。论文中指出，包括GPT-4o，Llama-3.1-70B，Claude 3.5 Sonnet在内的这些业界领先模型，在用户指定了所需输出长度（required output length）的情况下，其最大输出长度仍无法满足要求。例如，针对“写一篇关于罗马帝国历史的10000字文章”的要求，所有这些通用模型在输出长度上均无法超过2000字。通过对训练SFT数据的分析，对于这个现象一个比较合理的解释是，模型所能生成的最大长度，会受限于其SFT数据中存在的输出长度上限 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

东方网 · 上海火车站再+1！1月5日开通运营，与两条地铁无缝换乘，金山铁路运行图同步大调整

14 小时前

上海发布 · 【提示】上海高院发布22个涉网络游戏知识产权典型案例

2 天前

东方网 · 上海发布12条重要措施！推动建设生育友好型社会！

2 天前

大华那点事 · 桃浦全新地铁上盖商业综合体即将竣工！

3 天前

上海发布 · 虹桥枢纽出租汽车短途模式元旦起正式运营！

3 天前

关于移动版 · Py中国 · RSS之家 · CodingPro · Code · Link之家 · 卧龙AI搜索 · 小百科 · 51好读 · 小百科（海外） · Link管理

今天看啥 - 微信公众号rss订阅, 微信rss, 稳定的RSS源

© 2024 ~ 沪ICP备11025650号