文章预览
论文标题:Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism 论文链接:https://arxiv.org/abs/1909.08053 论文来源:NVIDIA 一、概述 随着自然语言处理领域预训练语言模型的规模变得越来越大,它们超过了现代处理器的内存限制,需要额外的内存管理技术,如激活检查点(activation checkpointing)。一些广泛使用的优化算法如Adam需要额外的内存来存储其中的动量和其他优化器状态,这降低了可以有效训练的模型大小。几种模型并行方法通过划分模型来克服这个限制,这样权重及其相关的优化器状态就不需要同时驻留在处理器上。例如,GPipe和Mesh-Tensorflow提供了不同种类的模型并行框架。但是,它们需要重写模型,并依赖于仍在开发中的自定义编译器和框架。 在这项工作中,我们使用简单高效的层内模型并行(intra-layer model-parallelism)来实现模型并行
………………………………