文章预览
本文概述了我们在生成含数十亿词元的合成数据集以复现 Phi-1.5 过程中所遇到的挑战及其解决方案,由此最终创建了 Cosmopedia 合成数据集。合成数据已成为机器学习社区的 C 位话题,其题中之义是用人工 (如使用大语言模型 (LLM)) 生成的数据模拟真实数据。 Phi-1.5 https://arxiv.org/abs/2309.05463 Cosmopedia https://hf.co/datasets/HuggingFaceTB/cosmopedia 传统上,构建用于有监督微调和指令微调的数据集需要昂贵且耗时的人工标注。这种做法需要大量资源,因此注定只有少数玩家玩得起。然而,最近情况发生了变化。我们已经见证了数百个高质量的合成微调数据集,它们主要由 GPT-3.5 和 GPT-4 生成。大家还在社区发表了大量的材料以指导相关的各种流程并解决相应挑战 [1] [2] [3] [4] [5] 。 [1] Enhancing Chat Language Models by Scaling High-quality Instructional Conversations https://arxiv.org/abs/2305.
………………………………