Cosmopedia: 如何为预训练构建大规模合成数据集

Hugging Face · 公众号 · · 2024-07-03 10:30

文章预览

本文概述了我们在生成含数十亿词元的合成数据集以复现 Phi-1.5 过程中所遇到的挑战及其解决方案，由此最终创建了 Cosmopedia 合成数据集。合成数据已成为机器学习社区的 C 位话题，其题中之义是用人工 (如使用大语言模型 (LLM)) 生成的数据模拟真实数据。 Phi-1.5 https://arxiv.org/abs/2309.05463 Cosmopedia https://hf.co/datasets/HuggingFaceTB/cosmopedia 传统上，构建用于有监督微调和指令微调的数据集需要昂贵且耗时的人工标注。这种做法需要大量资源，因此注定只有少数玩家玩得起。然而，最近情况发生了变化。我们已经见证了数百个高质量的合成微调数据集，它们主要由 GPT-3.5 和 GPT-4 生成。大家还在社区发表了大量的材料以指导相关的各种流程并解决相应挑战 [1] [2] [3] [4] [5] 。 [1] Enhancing Chat Language Models by Scaling High-quality Instructional Conversations https://arxiv.org/abs/2305. ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

康石石 · 还有谁不知道哈佛、宾大新兴STEM设计交叉硕士项目？！

14 小时前

康石石 · UCL2024录取趋势分析，新兴专业变化一览

昨天

康石石 · 和金匠的老师1v1面试25分钟，心脏骤停好几次，还以为offer飞了……

昨天

广西文化和旅游厅 · 《哪吒2》回应全球登顶！“奇迹”幕后有广西团队，影片中还藏着广西山水

3 天前

广西文化和旅游厅 · 《哪吒2》回应全球登顶！“奇迹”幕后有广西团队，影片中还藏着广西山水

3 天前

高分子科学前沿 · 北京林业大学马明国教授团队JMCA：导电纳米复合水凝胶应用于柔性可穿戴传感器

7 月前

科技阿水 · 小米SU7，它真的很爱上墙

7 月前

健康广东 · 【#疫情早期发现更及时！我国传染病监测预警体系这样建设→#】近日-20240903123758

5 月前