文章预览
1 语言大模型关键技术 语言大模型技术主要包括模型预训练、适配微调、提示学习、知 识增强和工具学习等。 1.1 语言大模型的预训练 支撑语言大模型高效训练的技术主要包括高性能训练工具、高效 预训练策略、高质量训练数据、高效的模型架构等。 高效预训练策略 。 其主要思路是采用不同的策略以更低成本实现 对语言大模型的预训练。 第 一种是在预训练中 设计高效的优化任务目标 ,使得可以使得模型能够利用每个样本更多的监督信息,从而实现模型训练的加速。 第二种是 热启动策略 ,在训练开始时线性地提高学 习率,以解决在预训练中单纯增加批处理大小可能会导致优化困难问 题。 第三种是 渐进式训练策略 ,不同于传统的训练范式使用相同的超 参数同时优化模型每一层,该方法认为不同的层可以共享相似的自注 意力模式,
………………………………