文章预览
新智元报道 编辑:alan 【新智元导读】 代码模型可以自己进化,利用自身生成的数据来进行指令调优,效果超越GPT-4o直接蒸馏! LLM作为智能的基座,可以衍生出各种能力。 代码能力就是其中一种:程序补全、注释、优化、修bug、测试等等。 而想要充分发挥LLM的巨大潜力,指令调优(Instruction Tuning)是至关重要的一步。 当前,高质量指令数据主要有两个来源:人工注释和蒸馏。 前者很贵,后者则受到限制。于是,人们开始另辟蹊径。 近日,来自UIUC、伯克利等机构的研究人员提出了SelfCodeAlign。 这篇工作首次证明了,可以通过自对齐(Self-Alignment)来获得强大的代码模型,不需要人工注释或者蒸馏,而且效果更好! 论文地址:https://arxiv.org/pdf/2410.24198 SelfCodeAlign在整个数据生成过程中,使用相同的基础模型进行推理,分为三步: 首先,从高
………………………………