一个从大三就接触NLP的小小NLPer,本公众号每天记录自己的一点一滴,每篇文章最后也有托福单词等新知识,学技术同时,也一点一滴积累额外的知识。期待与你在知识的殿堂与你相遇!
目录
今天看啥  ›  专栏  ›  深度学习自然语言处理

微解读 | 到底要不要使用Code?探索Code对pre-training的影响

深度学习自然语言处理  · 公众号  · 互联网安全  · 2024-08-29 15:27
    

主要观点总结

本文探讨了Code Data在Pre-training和Cooldown阶段的作用,分析了code数据在pretraining数据中的比例、质量以及对模型初始化和训练阶段的影响。文章还探讨了不同模型规模和数据集对结果的影响,并指出在特定的比例下,code数据对reasoning的帮助以及world knowledge的权衡。此外,文章还涉及了模型在Cooldown阶段的优化和投稿群的相关信息。

关键观点总结

关键观点1: Code Data在Pre-training中的作用

文章分析了code数据在pretraining数据中的比例,对模型初始化和训练阶段的影响,并探讨了code数据的质量对reasoning的影响。

关键观点2: Model的初始化和训练

文章从纯code、文本和混合训练的参数初始化入手,探讨了不同混合比例的数据对模型的影响,并指出在不同模型规模下的不同训练阶段,code数据的作用有所不同。

关键观点3: 数据集的影响

文章主要使用world knowledge(TrivialQA)、NL reasoning(NLI、QA数据集)和Code(HumanEval MBPP)数据集进行测评,探讨了不同数据集对模型性能的影响。

关键观点4: 关键发现

文章发现code数据初始化对reasoning有明显的帮助,但在world knowledge方面存在权衡;模型更大带来了更大的code-text ability tradeoff;在Cooldown阶段混code数据非常有帮助。


免责声明

免责声明:本文内容摘要由平台算法生成,仅为信息导航参考,不代表原文立场或观点。 原文内容版权归原作者所有,如您为原作者并希望删除该摘要或链接,请通过 【版权申诉通道】联系我们处理。

原文地址:访问原文地址
总结与预览地址:访问总结与预览
推荐产品:   推荐产品
文章地址: 访问文章快照