文章预览
作者:真中合欢 原文:https://zhuanlan.zhihu.com/p/721492096> 打分清洗的文章难产,写起来没有思路,就换换脑子写写旁门左道,探讨一下common数据质量不理想的情况下,如何做一个还可以的Continue Pretrain。 背景 首先介绍下什么是Continue Pretrain(CP)。CP 和 Pretrain、SFT一样指的是 LLM 训练的一个阶段,在前大模型时代还被称作Post Pretrain。CP 是在Pretrain和SFT之间的训练阶段,目的是为模型注入领域知识,这个领域是泛指的领域,既包含金融、法律、教育这种学科领域,也包含推理、理解、创作这种能力领域。现在很多论文工作都说明了我们的通用基座模型还没有达到各个尺寸模型的上限,也就是我们的模型还能学习更多知识,进行更准确的推理。但是做法却并不容易,简单的next token loss + generate 已经无法满足要求了。但是如果只求提升某一方面的能力,那在
………………………………