专栏名称: AINLP

关注AI、NLP相关技术，关注算法研发职位和课程；回复"文章"获取历史信息；双语聊天机器人"无名"；中英翻译请输入：翻译翻译内容；自动对联，请输入：上联上联内容；调戏夸夸聊天机器人，请求夸、求赞；查询相似词，请输入: 相似词词条

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

相关文章推荐

上海实习生招聘 · 大众点评上海实习生招聘 · 11 小时前

阜阳交通广播 · 瑜伽教练“思瑶”3500多页聊天记录，被打印 ... · 13 小时前

上海高考生 · 华二6人！2025信奥上海队名单公示！ · 2 天前

广州楼市发布 · 黄埔这些村，要拆了？ · 2 天前

掌上铜山 · 网红辛巴，再次被曝！ · 3 天前

今天看啥 › 专栏 › AINLP

预训练数据处理--长度分解

AINLP · 公众号 · · 2024-07-25 21:11

文章预览

LLM预训练最重要的工作就是数据的准备，可以说90%的时间都在处理数据。苹果提出Dataset Decomposition，对数据按长度进行分桶，提升预训练的效率。 1.预训练数据准备 1.1.concat-and-chunk 目前一般的做法是准备好文档数据后，获取对应的token，再通过特殊的分隔token把数据拼接起来，最后按训练窗口大小，切分成相应的长度，这就是concat-and-chunk。这样的做法存在一些问题：不同的文档拼接在一起，如果在训练的时候没有对注意力进行特殊处理，那就会出现模型在对当前文档数据进行next token prediction的时候，关注到前面拼接的不相关内容。不同文档的拼接训练效果上未必有很大帮助，但是却带来了额外的计算成本，因为attention的复杂度和输入长度的平方相关。多个文档拼接后切分，这样就有很多处于窗口边界的文档被切开，导致模型所见到的实际长度 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

上海实习生招聘 · 大众点评上海实习生招聘

11 小时前

阜阳交通广播 · 瑜伽教练“思瑶”3500多页聊天记录，被打印交出……

13 小时前

阜阳交通广播 · 瑜伽教练“思瑶”3500多页聊天记录，被打印交出……

13 小时前

上海高考生 · 华二6人！2025信奥上海队名单公示！

2 天前

上海高考生 · 华二6人！2025信奥上海队名单公示！

2 天前

广州楼市发布 · 黄埔这些村，要拆了？

2 天前

广州楼市发布 · 黄埔这些村，要拆了？

2 天前

掌上铜山 · 网红辛巴，再次被曝！

3 天前

掌上铜山 · 网红辛巴，再次被曝！

3 天前

大道无形我有型 · 回复@一条大河波浪欢-: 不好受是因为不懂又想赚快钱，对吧？//-20240612133033

9 月前

第一妇产 · 顺产时一定要侧切吗？有这5种情况的孕妈，没得选！附7个护理方法>

4 月前