文章预览
Meta官方发布的LLaMA3.1-405B的各项得分 ©作者 | 格林 来源 | 神州问学 最近,AI领域掀起了一股数据合成的热潮,各大厂商最近推出的模型都或多或少有数据合成的影子。英伟达的Nemotron-4-340B-Instruct、微软的Orca-3,以及Meta的Meta-Llama-3.1-8B-Instruct,都提到使用了部分的合成数据,展现出了这个领域前所未有的潜力。那么,为什么数据合成技术突然变得如此火热?这些模型背后的驱动力究竟是什么? 1. 引言:近期的数据生成相关的模型: 随着人工智能产业的快速发展,AI数据生成技术逐渐成为业界关注的焦点,特别是在提升训练数据的质量、规模和多样性方面,大模型展现出了巨大的潜力。近年来,数据合成技术已经被成功应用于多个领域,例如网络文本的重新表述、为文本质量分类器生成训练数据,以及为预训练集中代表性不足的领域创建新数据。
………………………………