专栏名称: AI TIME 论道

AI TIME是一群关注人工智能发展，并有思想情怀的青年学者创办的圈子，旨在发扬科学思辨精神，邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索，链接全球AI学者，以辩论的形式探讨人工智能领域的未来。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

Big Model Weekly | 第27期

AI TIME 论道 · 公众号 · · 2024-06-29 10:30

文章预览

点击蓝字关注我们 AI TIME欢迎每一位AI爱好者的加入！ 01 Self-play with Execution Feedback: Improving Instruction-following Capabilities of Large Language Models 大规模语言模型（LLMs）的一个核心能力是遵循自然语言指令。然而，如何在不依赖人工标注的情况下自动构建高质量的训练数据，以增强LLMs的复杂指令跟随能力，仍然是一个未解决的问题。本文介绍了AUTOIF，这是第一个可扩展且可靠的方法，用于自动生成指令跟随训练数据。AUTOIF将指令跟随数据质量的验证转化为代码验证，要求LLMs生成指令、相应的代码来检查指令响应的正确性，以及用于验证代码正确性的单元测试样例。然后，通过基于执行反馈的拒绝采样，可以生成用于监督微调（SFT）和基于人类反馈的强化学习（RLHF）训练的数据。在应用于顶级开源LLMs（如Qwen2和LLaMA3）进行自对齐和强弱蒸馏设置时，AUTOIF在 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

爱否科技 · 骁龙 8 至尊版 +1.5K 悟空屏 +7050mAh 超大电池，红魔 10 Pro 系列发布，售价 4999 元起

5 天前

爱否科技 · 魅族22系列手机迎最新爆料，项目保留，时间未定

5 天前

爱否科技 · iPhone SE4 有望明年 3 月到来，供应链消息显示即将进入量产阶段

6 天前

Hozin · 重塑表单逻辑：发布/保存，并行/串行

3 月前

英国报姐 · 泰王室夺嫡大战升级！流亡归国王子讨父王欢心做抽脂手术，小太子为抢关注与民众坐地唠嗑？！

2 月前