预训练大模型的并行训练与部署 2024

AI云原生智能算力架构 · 公众号 · · 2024-08-14 07:14

文章预览

预训练语言模型虽然在自然语言任务中取得了很好的效果，但是由于这类模型于模型参数量与训练数据量十分庞大，导致在单张卡上无法储存完整的模型，传统的单机单卡的训练方式已无法满足模型的训练，以及在部署推理模型时，庞大的参数量限制了推理速度与相应服务的扩展性。采用多机多卡的训练方式是缓解大规模预训练模型难以训练的有效手段。为此，多机多卡间通信、模型并行与数据并行时梯度的同步等问题受到了许多关注，各种训练框架也应运而生。Nvidia 开发的 Megatron-LM 训练框架可以直接将大规模预训练语言模型在多机多卡下进行并行训练。 Megatron-LM 提供了完善的数据并行、模型并行的能力，并支持 APEX 的混合精度加速训练，下图为 Megatron-LM进行分布式训练的示意图。此外清华大学开源的 FastMoE 为大规模的基于 MoE 的预训练模型 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博