一个从大三就接触NLP的小小NLPer,本公众号每天记录自己的一点一滴,每篇文章最后也有托福单词等新知识,学技术同时,也一点一滴积累额外的知识。期待与你在知识的殿堂与你相遇!
今天看啥  ›  专栏  ›  深度学习自然语言处理

微解读 | 到底要不要使用Code?探索Code对pre-training的影响

深度学习自然语言处理  · 公众号  ·  · 2024-08-29 15:27
    

文章预览

作者:李磊 香港大学 To Code, or Not To Code?Exploring Impact of Code in Pre-training https://arxiv.org/pdf/2408.10914 分析 Code Data 在 Pre-training 和 Cooldown 中的作用,分析的切入点: - code 数据在 pretraining 数据里的比例 - code 数据的质量 - model init: 从纯 code / text /mix trained 的参数 init,然后在不同混合比例的数据上训练 - model scale 不同大小 - 不同 training stage 测评的数据集主要是 world knowledge (TrivialQA)、 NL reasoning (NLI、QA 数据集)和 Code (HumanEval MBPP)。 Key Findings: - code data init 对 reasoning 帮助很明显,但是 world knowledge 有 tradeoff;整体上可能 code 在 25% 左右比较合适(对应 LLaMA 3.1 的 17%?),code 质量同样对 reasoning 较大的影响 - 470M -> 2.8B 的 scaling 实验中(数据量不变)确认前面的发现依旧成立,但模型更大带来了更大的 code-text ability tradeoff - 在 Cooldown stage (高质量的数 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览