文章预览
作者:李磊 香港大学 To Code, or Not To Code?Exploring Impact of Code in Pre-training https://arxiv.org/pdf/2408.10914 分析 Code Data 在 Pre-training 和 Cooldown 中的作用,分析的切入点: - code 数据在 pretraining 数据里的比例 - code 数据的质量 - model init: 从纯 code / text /mix trained 的参数 init,然后在不同混合比例的数据上训练 - model scale 不同大小 - 不同 training stage 测评的数据集主要是 world knowledge (TrivialQA)、 NL reasoning (NLI、QA 数据集)和 Code (HumanEval MBPP)。 Key Findings: - code data init 对 reasoning 帮助很明显,但是 world knowledge 有 tradeoff;整体上可能 code 在 25% 左右比较合适(对应 LLaMA 3.1 的 17%?),code 质量同样对 reasoning 较大的影响 - 470M -> 2.8B 的 scaling 实验中(数据量不变)确认前面的发现依旧成立,但模型更大带来了更大的 code-text ability tradeoff - 在 Cooldown stage (高质量的数
………………………………