文章预览
合成数据对于加速大型和小型语言模型的发展越来越重要。尽管有几个成功的用例,研究人员也提出了关于模型崩溃和模仿其他模型的缺点的担忧。这种差异可以归因于合成数据在质量和多样性上的差异。有效使用合成数据通常需要大量的人力在策划数据上。我们专注于使用合成数据进行后训练,特别是通过强大的模型创建数据,以教授另一个模型新技能或行为,我们称这种设置为生成性教学。我们介绍了AgentInstruct,这是一个可扩展的智能体框架,用于自动创建大量多样化和高质量的合成数据。AgentInstruct可以创建提示和回应,仅使用像文本文档和代码文件这样的原始数据源作为种子。我们通过创建2500万对后训练数据集来展示AgentInstruct的效用,以教授语言模型不同的技能,例如文本编辑、创意写作、工具使用、编码、阅读理解等。该数据集可以用
………………………………