专栏名称: NLP工作站
AIGC前沿知识分享&落地经验总结
今天看啥  ›  专栏  ›  NLP工作站

RegMix-用回归任务解决大模型数据混合问题

NLP工作站  · 公众号  ·  · 2024-07-04 23:23

文章预览

写在前面 大家好,我是刘聪NLP。 大型语言模型在预训练过程中,如何选取数据的混合比例(利用较少的Tokens来实现较小的Loss从而加速预训练过程)是一个复杂和关键的问题。手动确认数据集中各个组成的比例是不可扩展的,并且很可能不是最优选择。 今天给大家介绍一个 用回归任务解决大模型数据混合问题的方法 -RegMix。其核心思想是,利用不同的数据混合比例先训练多个小模型并获取其结果,在利用这些样本训练一个回归模型,再遍历所有比例利用回归模型找到最优的数据混合比例,最后用最优数据混合比例训练更大的语言模型。 Paper: https://arxiv.org/abs/2407.01492 Github: https://github.com/sail-sg/regmix 通过训练512个1M的小模型,拟合回归模型,找到top64的数据混合比例,训练1B模型,最优数据混合比例训练的模型的验证集loss也是最低。 方法 整体流程 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览