今天看啥  ›  专栏  ›  AI云原生智能算力架构

大模型的训练数据解决方案深度分析 2024

AI云原生智能算力架构  · 公众号  ·  · 2024-07-23 07:15
    

文章预览

1  大模型的训练数据 数据是大模型的关键要素,其所需的数据的种类也非常广泛,涉 及多种模态。以语言大模型为例,其所需要的数据包括多语言数据、代码数据、人工标注数据等多种类别。 1.1  大模型的训练数据处理流程和特点 根据大模型训练的尺度定律( scaling law ),数据规模、模型参数 与大模型性能存在紧密关系。近期,微软研究工作表明提高数据质量 可以极大地改变尺度定律的形状。 通过构建  7B  的小规模 “ 教科书( Textbooks ) ” 高质量的代码训练数据(包括从  web  上筛选的 “ 教科书质量 ” 数据( 6B tokens )以及使用  GPT-3.5  生成的教科书和练习( 1B tokens )),训练  1.3B  模型  phi-1  在代码评测集  HumanEval  上  Pass@1 准确率达到了  50.6% ,超越  GPT-3.5 ( 175B ,超过  2TB  训练数据)的 47% 。 该方法表明,通过构建高 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览