专栏名称: SparksofAGI
人工智能前沿论文解读
目录
今天看啥  ›  专栏  ›  SparksofAGI

代码数据在预训练时要训吗?训多少?退火时要放吗?

SparksofAGI  · 公众号  ·  · 2024-09-01 16:53
    

文章预览

To Code, or Not To Code? Exploring Impact of Code in Pre-training 代码数据在预训练时要训吗?训多少?退火时要放吗? ‍‍‍‍‍ 小编一直坚信代码数据与代码任务的重要性,恰好有一篇 前些天很火的文章,给出了很多关于这方面的详细结论。首先放一张网友总结的图片如下。 传言代码数据在提高通用LLM表现上有很关键作用,但分析代码在非代码任务上的具体影响的工作很有限。作者在自然语言推理、世界知识类任务、代码任务测试上和以LLM-as-a-judge的胜率比较的方式评估从470M到2.8B规模的模型表现。在各类设置中,作者发现了一致的结果,即代码质量的提升对所有任务都有显著的影响。各项结论如下: 代码为其他非代码任务提供关键提升 :与仅限于文本的预训练相比,加入代码可使自然语言推理能力相对提升8.2%,世界知识(world knowledge)相对提升4.2%,生 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览