Megatron-LM：Transformer模型专用分布式张量模型并行方法

酷酷的群 · 公众号 · · 2023-07-22 09:29

文章预览

论文标题：Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism 论文链接：https://arxiv.org/abs/1909.08053 论文来源：NVIDIA 一、概述随着自然语言处理领域预训练语言模型的规模变得越来越大，它们超过了现代处理器的内存限制，需要额外的内存管理技术，如激活检查点(activation checkpointing)。一些广泛使用的优化算法如Adam需要额外的内存来存储其中的动量和其他优化器状态，这降低了可以有效训练的模型大小。几种模型并行方法通过划分模型来克服这个限制，这样权重及其相关的优化器状态就不需要同时驻留在处理器上。例如，GPipe和Mesh-Tensorflow提供了不同种类的模型并行框架。但是，它们需要重写模型，并依赖于仍在开发中的自定义编译器和框架。在这项工作中，我们使用简单高效的层内模型并行(intra-layer model-parallelism)来实现模型并行 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博