文章预览
今天给大家带来知乎@真中合欢的一篇文章,《LLM实践系列-拯救Continue Pretrain的数据》。 知乎:https://zhuanlan.zhihu.com/p/721492096 打分清洗的文章难产,写起来没有思路,就换换脑子写写旁门左道,探讨一下common数据质量不理想的情况下,如何做一个还可以的Continue Pretrain。 背景 首先介绍下什么是Continue Pretrain(CP)。CP 和 Pretrain、SFT一样指的是 LLM 训练的一个阶段,在前大模型时代还被称作Post Pretrain。CP 是在Pretrain和SFT之间的训练阶段,目的是为模型注入领域知识,这个领域是泛指的领域,既包含金融、法律、创作这种学科领域,也包含推理、理解这种能力领域。现在很多论文工作都说明了我们的通用基座模型还没有达到各个尺寸模型的上限,也就是我们的模型还能学习更多知识,进行更准确的推理。但是做法却并不容易,简单的next token loss + generate
………………………………