一篇大模型数据合成和增强技术最新综述

PaperAgent · 公众号 · · 2024-10-26 16:08

文章预览

大型语言模型（LLMs）高质量数据的增长速度远远落后于训练数据集的扩张，在这种情况下，合成数据已成为一个有希望的解决方案。目前，数据生成主要包含两种主要方法：数据增强和合成。全面回顾并总结了 LLMs整个生命周期中的数据生成技术，包括数据准备、预训练、微调、指令调优、偏好对齐和应用。本综述的主要内容流程和分类现有关于数据合成和增强技术的调查与本次工作的比较。先前的调查主要关注基于大型语言模型（LLM）的数据合成和增强方法，旨在支持下游任务。相比之下，我们的工作强调以LLM为导向的数据合成和增强，系统地涵盖了LLM的完整生命周期——从数据准备到应用——并解决核心LLM功能，如理解和生成，最终目标是通过以数据为中心的技术来改进LLM本身。数据增强与合成介绍了数据生成方法的分类，这些方法在 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

环球网 · 陈梦、樊振东退出排名，WTT最新回应

6 小时前

环球网 · 陈梦、樊振东退出排名，WTT最新回应

6 小时前

青岛新闻网 · 樊振东、陈梦退出国际乒联世界排名，WTT回应

6 小时前

青岛新闻网 · 樊振东、陈梦退出国际乒联世界排名，WTT回应

6 小时前

九派新闻 · 樊振东、陈梦退出国际乒联世界排名，WTT回应

7 小时前

九派新闻 · 樊振东、陈梦退出国际乒联世界排名，WTT回应

7 小时前

青岛日报 · 陈梦最新消息！

2 天前

青岛日报 · 陈梦最新消息！

2 天前

医学界肿瘤频道 · 探讨驱动基因突变非小细胞肺癌伴新发脑转移患者的治疗结局和预后影响因素

6 月前

睡前人间 · 穿一整天都不闷脚的空调袜！！「35/10双」限时赠冰袖~

5 月前

棕榈大道 · 【商科实习】免费内推到咨询岗，光速录取！实习没你想得那么难！商道纵横实习+1！

4 月前

GaiaDaily · BIRTV2024 | 盖雅小筑 Gaia Cafe「北京快闪」明日 Last Day～

4 月前

墨香中华 · 世间万事皆无定，唯有人品立一生

2 月前