一个有情怀的公众号。机器学习、自然语言处理、算法等知识集中营、期待与你相遇~
今天看啥  ›  专栏  ›  机器学习算法与自然语言处理

LLM实践系列-拯救Continue Pretrain的数据

机器学习算法与自然语言处理  · 公众号  ·  · 2024-10-21 00:00

文章预览

MLNLP 社区是国内外知名的机器学习与自然语言处理社区,受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。 社区的愿景 是促进国内外自然语言处理,机器学习学术界、产业界和广大爱好者之间的交流和进步,特别是初学者同学们的进步。 转载自 | 真中合欢@知乎 打分清洗的文章难产,写起来没有思路,就换换脑子写写旁门左道,探讨一下common数据质量不理想的情况下,如何做一个还可以的Continue Pretrain。 背景 首先介绍下什么是Continue Pretrain(CP)。CP 和 Pretrain、SFT一样指的是 LLM 训练的一个阶段,在前大模型时代还被称作Post Pretrain。CP 是在Pretrain和SFT之间的训练阶段,目的是为模型注入领域知识,这个领域是泛指的领域,既包含金融、法律、创作这种学科领域,也包含推理、理解这种能力领域。现在很多论文工作都说明了我们的通用基座模 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览