专栏名称: GiantPandaCV
专注于机器学习、深度学习、计算机视觉、图像处理等多个方向技术分享。团队由一群热爱技术且热衷于分享的小伙伴组成。我们坚持原创,每天一到两篇原创技术分享。希望在传播知识、分享知识的同时能够启发你,大家一起共同进步(・ω<)☆
今天看啥  ›  专栏  ›  GiantPandaCV

《超大规模操作手册:在 GPU 集群上训练 》Part2(SP,CP,PP,EP,5D)

GiantPandaCV  · 公众号  · 3D  · 2025-02-24 00:00
    

文章预览

翻译自 :https://huggingface.co/spaces/nanotron/ultrascale-playbook 作者:nanotron 校正:pprp Sequence Parallel 序列并行 序列并行性(SP)涉及将模型中由张量并行性(TP)未处理的部分(如 Dropout 和 LayerNorm), 对于activation (shape为 [  bs ,   seq len ,   hidden dimension ]沿输入序列维度(  seq len ) 进行拆分,而不是hidden dimension. 💡 序列并行性这个术语有点过载:本节中的序列并行性  SP  与张量并行性  TP  紧密耦合,并适用于  dropout  和  层归一化  操作。然而,当我们转向更长的序列时,注意力计算将成为瓶颈,这需要像  Ring-Attention 这样的技术,这些技术有时也被称为 序列并行性  SP ,但我们将它们称为 上下文并行  Context Parallel  以区分两种方法。所以每次你看到序列并行性时,请记住它是与张量并行性一起使用的(与可以独立使用的上下文并行性相对)。 之所 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览