专栏名称: AINLP
关注AI、NLP相关技术,关注算法研发职位和课程;回复"文章"获取历史信息;双语聊天机器人"无名";中英翻译请输入:翻译 翻译内容;自动对联,请输入:上联 上联内容;调戏夸夸聊天机器人,请求夸、求赞;查询相似词,请输入: 相似词 词条
今天看啥  ›  专栏  ›  AINLP

预训练数据处理--长度分解

AINLP  · 公众号  ·  · 2024-07-25 21:11
    

文章预览

LLM预训练最重要的工作就是数据的准备,可以说90%的时间都在处理数据。 苹果提出Dataset Decomposition,对数据按长度进行分桶,提升预训练的效率。 1.预训练数据准备 1.1.concat-and-chunk 目前一般的做法是准备好文档数据后,获取对应的token,再通过特殊的分隔token把数据拼接起来,最后按训练窗口大小,切分成相应的长度,这就是concat-and-chunk。 这样的做法存在一些问题: 不同的文档拼接在一起,如果在训练的时候没有对注意力进行特殊处理,那就会出现模型在对当前文档数据进行next token prediction的时候,关注到前面拼接的不相关内容。 不同文档的拼接训练效果上未必有很大帮助,但是却带来了额外的计算成本,因为attention的复杂度和输入长度的平方相关。 多个文档拼接后切分,这样就有很多处于窗口边界的文档被切开,导致模型所见到的实际长度 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览