文章预览
来源:PaperAgent 大型语言模型(LLMs)高质量数据的增长速度远远落后于训练数据集的扩张,在这种情况下,合成数据已成为一个有希望的解决方案。目前,数据生成主要包含两种主要方法: 数据增强和合成 。全面回顾并总结了 LLMs整个生命周期中的数据生成技术 ,包括 数据准备、预训练、微调、指令调优、偏好对齐和应用 。 本综述的主要内容流程和分类 现有关于数据合成和增强技术的调查与本次工作的比较 。先前的调查主要关注基于大型语言模型(LLM)的数据合成和增强方法,旨在支持下游任务。相比之下,我们的工作强调以LLM为导向的数据合成和增强,系统地涵盖了LLM的完整生命周期——从数据准备到应用——并解决核心LLM功能,如理解和生成,最终目标是通过以数据为中心的技术来改进LLM本身。 数据增强与合成 介绍了数据生成方法的分
………………………………