专栏名称: 将门创投
将门是一家专注于发掘及加速技术创新激活商业价值的创业公司的创投机构。将门旗下设有将门创新服务、将门技术社群以及将门投资基金。关注领域包括机器智能、物联网、自然人机交互、企业计算。
今天看啥  ›  专栏  ›  将门创投

垂域大模型数据配比cookbook:D-CPT Law

将门创投  · 公众号  · 科技创业  · 2024-06-27 08:22
目前,因大语言模型训练所需的算力越来越大,为了节省训练代价,更多的研究者开始关注Scaling Law的技术发展与应用。本文将探索垂域大语言模型(Domain-specific Large Language Models)的续训阶段(Continual Pre-Training, CPT)的Scaling Law。本篇工作在Chinchilla Scaling Law的基础上新增了变量--混合数据比例r,并提出了D-CPT Law,并提出了3种不同设置下的使用方法来验证D-CPT Law在实际场景下的使用。随着大语言模型(Large Language Models, LLMs)的发展,模型在多个领域(数学,代码,通识等)上展现了强大的能力,但模型训练所需的算力也越来越大,为了节省模型的训练代价,越来越多研究者关注Scaling Law的技术发展与应用,用Scaling Law来节省训练代价。具体来说,Scaling Law的核心思想是让模型在小规模的实验(模型参数量少,模型训练语料少)下进行实验,然后通过Scaling Law来预测模 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照