专栏名称: LLM SPACE

每周高质量AI信息

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

相关文章推荐

字句都是你 · 为什么懂行的人买手机不选256G？内行人一句 ... · 昨天

字句都是你 · 2024年末买手机，4款骁龙8Gen ... · 2 天前

机智猫 · 一加Ace ... · 2 天前

字句都是你 · 7000mAh+骁龙8s至尊版+144Hz， ... · 3 天前

机智猫 · 麒麟+卫星通讯下放，华为重返千元机市场 · 3 天前

今天看啥 › 专栏 › LLM SPACE

大模型日报（6月4日学术篇）

LLM SPACE · 公众号 · · 2024-06-04 18:55

文章预览

我们希望能够搭建一个AI学习社群，让大家能够学习到最前沿的知识，大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流，欢迎扫码。欢迎大家一起交流！论文 0 1 D-CPT法则：面向领域的大语言模型持续预训练缩放定律持续预训练（CPT）在大语言模型（LLMs）上被广泛应用于扩展模型对特定下游领域（如数学和代码）的基本理解。对于特定领域LLMs的CPT，一个重要问题是如何选择通用语料库（例如Dolma，Slim-pajama）和特定领域语料库之间的最佳混合比例。现有方法通常通过在一组混合比例上进行网格搜索来采用费时费力的人力工作，这需要高GPU训练消耗成本。此外，我们无法保证所选比例对特定领域是最佳的。为解决现有方法的局限性，受性能预测的Scaling Law启发，我们提出了调查特定领域持续预训练（D-CPT Law ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

字句都是你 · 为什么懂行的人买手机不选256G？内行人一句话道出原因

昨天

字句都是你 · 为什么懂行的人买手机不选256G？内行人一句话道出原因

昨天

字句都是你 · 2024年末买手机，4款骁龙8Gen 3“真香机”，已经跌至真香价

2 天前

字句都是你 · 2024年末买手机，4款骁龙8Gen 3“真香机”，已经跌至真香价

2 天前

机智猫 · 一加Ace 5测评：第三代骁龙8的性能还有提升空间？！

2 天前

机智猫 · 一加Ace 5测评：第三代骁龙8的性能还有提升空间？！

2 天前

字句都是你 · 7000mAh+骁龙8s至尊版+144Hz，不到两千元，这款中端机有点酷！

3 天前

字句都是你 · 7000mAh+骁龙8s至尊版+144Hz，不到两千元，这款中端机有点酷！

3 天前

机智猫 · 麒麟+卫星通讯下放，华为重返千元机市场

3 天前

机智猫 · 麒麟+卫星通讯下放，华为重返千元机市场

3 天前

咩咩说 · 又逢一年高考时

6 月前

人力资源管理 · “亲戚问工资后，被妈妈教训了”上热搜：硬撑的面子，更掉价

4 月前

新闻晨报 · 突发4.5级地震！网友：震感明显

3 月前

掌上春城 · 错过再等6万年！最近一周昆明都可观测！

2 月前

大模型日报（6月4日 学术篇）

文章预览

大模型日报（6月4日学术篇）