今天看啥  ›  专栏  ›  LLM SPACE

大模型日报(6月4日 学术篇)

LLM SPACE  · 公众号  ·  · 2024-06-04 18:55
    

文章预览

我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。 欢 迎 大 家 一 起 交 流 ! 论文 0 1 D-CPT法则:面向领域的大语言模型持续预训练缩放定律 持续预训练(CPT)在大语言模型(LLMs)上被广泛应用于扩展模型对特定下游领域(如数学和代码)的基本理解。对于特定领域LLMs的CPT,一个重要问题是如何选择通用语料库(例如Dolma,Slim-pajama)和特定领域语料库之间的最佳混合比例。现有方法通常通过在一组混合比例上进行网格搜索来采用费时费力的人力工作,这需要高GPU训练消耗成本。此外,我们无法保证所选比例对特定领域是最佳的。为解决现有方法的局限性,受性能预测的Scaling Law启发,我们提出了调查特定领域持续预训练(D-CPT Law ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览