专栏名称: 酷酷的群
统计机器学习、深度学习、自然语言处理、图神经网络。
今天看啥  ›  专栏  ›  酷酷的群

Megatron-LM:Transformer模型专用分布式张量模型并行方法

酷酷的群  · 公众号  ·  · 2023-07-22 09:29

文章预览

论文标题:Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism 论文链接:https://arxiv.org/abs/1909.08053 论文来源:NVIDIA 一、概述 随着自然语言处理领域预训练语言模型的规模变得越来越大,它们超过了现代处理器的内存限制,需要额外的内存管理技术,如激活检查点(activation checkpointing)。一些广泛使用的优化算法如Adam需要额外的内存来存储其中的动量和其他优化器状态,这降低了可以有效训练的模型大小。几种模型并行方法通过划分模型来克服这个限制,这样权重及其相关的优化器状态就不需要同时驻留在处理器上。例如,GPipe和Mesh-Tensorflow提供了不同种类的模型并行框架。但是,它们需要重写模型,并依赖于仍在开发中的自定义编译器和框架。 在这项工作中,我们使用简单高效的层内模型并行(intra-layer model-parallelism)来实现模型并行 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览