今天看啥  ›  专栏  ›  PaperAgent

一篇大模型数据合成和增强技术最新综述

PaperAgent  · 公众号  ·  · 2024-10-26 16:08
    

文章预览

大型语言模型(LLMs)高质量数据的增长速度远远落后于训练数据集的扩张,在这种情况下,合成数据已成为一个有希望的解决方案。目前,数据生成主要包含两种主要方法: 数据增强和合成 。全面回顾并总结了 LLMs整个生命周期中的数据生成技术 ,包括 数据准备、预训练、微调、指令调优、偏好对齐和应用 。 本综述的主要内容流程和分类 现有关于数据合成和增强技术的调查与本次工作的比较 。先前的调查主要关注基于大型语言模型(LLM)的数据合成和增强方法,旨在支持下游任务。相比之下,我们的工作强调以LLM为导向的数据合成和增强,系统地涵盖了LLM的完整生命周期——从数据准备到应用——并解决核心LLM功能,如理解和生成,最终目标是通过以数据为中心的技术来改进LLM本身。 数据增强与合成 介绍了数据生成方法的分类,这些方法在 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览