今天看啥  ›  专栏  ›  大语言模型和具身智体及自动驾驶

大语言模型的持续预训练:如何(重新)预热模型?

大语言模型和具身智体及自动驾驶  · 公众号  ·  · 2024-06-01 00:16
    

文章预览

23年8月来自加拿大蒙特利尔大学的论文“Continual Pre-Training of Large Language Models: How to (re)warm your model?”。 大语言模型 (LLM) 通常会在数十亿个tokens上进行预训练,一旦有新数据可用,就必须重新启动该过程。一个更便宜、更有效的解决方案是启用这些模型的持续预训练,即用新数据更新预训练模型,而不是从头开始重新训练它们。然而,新数据引起的分布变化通常会导致过去数据的性能下降。为了朝着高效的持续预训练迈出一步,本文研究不同预热策略的效果。假设在使用新数据集进行训练时,必须重新增加学习率以提高计算效率。研究在 Pile(上游数据,300B 个tokens)上预训练模型的预热阶段,并继续在 SlimPajama(下游数据,297B 个tokens)上进行预训练,遵循线性预热和余弦衰减进度。在 Pythia 410M 语言模型架构上进行了所有实验,并通过验证困惑 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览