文章预览
点击蓝字 关注我们 AI TIME欢迎每一位AI爱好者的加入! 01 Self-play with Execution Feedback: Improving Instruction-following Capabilities of Large Language Models 大规模语言模型(LLMs)的一个核心能力是遵循自然语言指令。然而,如何在不依赖人工标注的情况下自动构建高质量的训练数据,以增强LLMs的复杂指令跟随能力,仍然是一个未解决的问题。本文介绍了AUTOIF,这是第一个可扩展且可靠的方法,用于自动生成指令跟随训练数据。AUTOIF将指令跟随数据质量的验证转化为代码验证,要求LLMs生成指令、相应的代码来检查指令响应的正确性,以及用于验证代码正确性的单元测试样例。然后,通过基于执行反馈的拒绝采样,可以生成用于监督微调(SFT)和基于人类反馈的强化学习(RLHF)训练的数据。在应用于顶级开源LLMs(如Qwen2和LLaMA3)进行自对齐和强弱蒸馏设置时,AUTOIF在
………………………………