LLM实践系列-拯救Continue Pretrain的数据

深度学习与NLP · 公众号 · · 2024-10-19 00:00

文章预览

今天给大家带来知乎@真中合欢的一篇文章，《LLM实践系列-拯救Continue Pretrain的数据》。知乎：https://zhuanlan.zhihu.com/p/721492096 打分清洗的文章难产，写起来没有思路，就换换脑子写写旁门左道，探讨一下common数据质量不理想的情况下，如何做一个还可以的Continue Pretrain。背景首先介绍下什么是Continue Pretrain（CP）。CP 和 Pretrain、SFT一样指的是 LLM 训练的一个阶段，在前大模型时代还被称作Post Pretrain。CP 是在Pretrain和SFT之间的训练阶段，目的是为模型注入领域知识，这个领域是泛指的领域，既包含金融、法律、创作这种学科领域，也包含推理、理解这种能力领域。现在很多论文工作都说明了我们的通用基座模型还没有达到各个尺寸模型的上限，也就是我们的模型还能学习更多知识，进行更准确的推理。但是做法却并不容易，简单的next token loss + generate ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

华策影视 · 华策集团《我是刑警》获影视榜样·2024年度总评榜“最佳剧集”

3 小时前

煮娱星球 · 卧擦？内娱也太恐怖了吧！

昨天

孤读先生 · 张颂文人设塌了？事情远没那么简单

昨天

现代快报 · 鹿晗道歉

2 天前

中国铁建 · 改革微观察丨中国铁建大桥局：产业“小拼图”合出链长“大图景”

2 天前

生信宝典 · Cell：整合效率超 60%，中国科学院李伟/周琪等破解数十年难题，实现全 RNA 介导的基因精准写入

5 月前