专栏名称: AI TIME 论道
AI TIME是一群关注人工智能发展,并有思想情怀的青年学者创办的圈子,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,链接全球AI学者,以辩论的形式探讨人工智能领域的未来。
今天看啥  ›  专栏  ›  AI TIME 论道

Big Model Weekly | 第27期

AI TIME 论道  · 公众号  ·  · 2024-06-29 10:30

文章预览

点击蓝字 关注我们 AI TIME欢迎每一位AI爱好者的加入! 01 Self-play with Execution Feedback: Improving Instruction-following Capabilities of Large Language Models 大规模语言模型(LLMs)的一个核心能力是遵循自然语言指令。然而,如何在不依赖人工标注的情况下自动构建高质量的训练数据,以增强LLMs的复杂指令跟随能力,仍然是一个未解决的问题。本文介绍了AUTOIF,这是第一个可扩展且可靠的方法,用于自动生成指令跟随训练数据。AUTOIF将指令跟随数据质量的验证转化为代码验证,要求LLMs生成指令、相应的代码来检查指令响应的正确性,以及用于验证代码正确性的单元测试样例。然后,通过基于执行反馈的拒绝采样,可以生成用于监督微调(SFT)和基于人类反馈的强化学习(RLHF)训练的数据。在应用于顶级开源LLMs(如Qwen2和LLaMA3)进行自对齐和强弱蒸馏设置时,AUTOIF在 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览