文章预览
翻译自 :https://huggingface.co/spaces/nanotron/ultrascale-playbook 作者:nanotron 校正:pprp Sequence Parallel 序列并行 序列并行性(SP)涉及将模型中由张量并行性(TP)未处理的部分(如 Dropout 和 LayerNorm), 对于activation (shape为 [ bs , seq len , hidden dimension ]沿输入序列维度( seq len ) 进行拆分,而不是hidden dimension. 💡 序列并行性这个术语有点过载:本节中的序列并行性 SP 与张量并行性 TP 紧密耦合,并适用于 dropout 和 层归一化 操作。然而,当我们转向更长的序列时,注意力计算将成为瓶颈,这需要像 Ring-Attention 这样的技术,这些技术有时也被称为 序列并行性 SP ,但我们将它们称为 上下文并行 Context Parallel 以区分两种方法。所以每次你看到序列并行性时,请记住它是与张量并行性一起使用的(与可以独立使用的上下文并行性相对)。 之所
………………………………