专栏名称: 将门创投

将门是一家专注于发掘及加速技术创新激活商业价值的创业公司的创投机构。将门旗下设有将门创新服务、将门技术社群以及将门投资基金。关注领域包括机器智能、物联网、自然人机交互、企业计算。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

垂域大模型数据配比cookbook：D-CPT Law

将门创投 · 公众号 · 科技创业 · 2024-06-27 08:22

文章预览

目前，因大语言模型训练所需的算力越来越大，为了节省训练代价，更多的研究者开始关注Scaling Law的技术发展与应用。本文将探索垂域大语言模型(Domain-specific Large Language Models)的续训阶段(Continual Pre-Training, CPT)的Scaling Law。本篇工作在Chinchilla Scaling Law的基础上新增了变量--混合数据比例r，并提出了D-CPT Law，并提出了3种不同设置下的使用方法来验证D-CPT Law在实际场景下的使用。随着大语言模型(Large Language Models, LLMs)的发展，模型在多个领域(数学，代码，通识等)上展现了强大的能力，但模型训练所需的算力也越来越大，为了节省模型的训练代价，越来越多研究者关注Scaling Law的技术发展与应用，用Scaling Law来节省训练代价。具体来说，Scaling Law的核心思想是让模型在小规模的实验(模型参数量少，模型训练语料少)下进行实验，然后通过Scaling Law来 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

瓦砾村夫 · 马斯克详解：xAI如何在122天内搭建上线10万张卡训练集群

昨天

港澳IPO上市 · 盘兴数智，来自浙江杭州，递交招股书，拟赴香港上市 | 香港IPO市场

2 天前

港澳IPO上市 · 盘兴数智，来自浙江杭州，递交招股书，拟赴香港上市 | 香港IPO市场

2 天前

创业家 · 公司规模不大，如何招到大牛？

2 天前

创乎 · 打造个人品牌【定位】所以建议最好自己定义自己

2 天前

重庆制造 · 第二届开放原子大赛—汽车软件开源赛在渝落幕 24支参赛队伍斩获奖项

3 天前

上海发布 · 【提示】S20外环泰和路高架（江杨北路-外环隧道）二阶段内圈施工明晚启动

4 月前

EngineeringForLife · 助力铜死亡抗癌！可溶性“微针”最新AFM

2 月前

秋叶PPT · 谁还没领？有了这21个AI神器，我被长辈追着夸了一整个春节！

2 周前