文章预览
导读 本次分享的主题是大语言模型训练中的数据管理。 主要分为四个章节: 1. 大语言模型训练中的数据管理概述 2. 预训练阶段的数据管理 3. SFT 阶段的数据管理 4. 挑战及未来方向 分享嘉宾| 王紫格 北京大学/华为 博士研究生/实习生 编辑整理| 郝浩 内容校对|李瑶 出品社区| DataFun 01 大语言模型训练中的数据管理概述 数据对于大语言模型训练至关重要,无论是在预训练阶段,还是在有监督微调(SFT)阶段,数据都是关键因素之一。 不同的大语言模型在构建训练数据集时会采取不同的策略,其背后的原因和影响是什么?实践中应该如何去选择?越来越多的研究者关注到这些困惑,并进行了相关研究。我们的工作就是总结和梳理目前已有的这些研究成果,在大语言模型训练中提供一些实践上的参考和指导。 我们这里定义的数据管
………………………………