文章预览
↑ 点击 蓝字 关注极市平台 作者丨猛猿 来源丨大猿搬砖简记 编辑丨极市平台 极市导读 本文详细解释了Megatron Context Parallelism(CP)的工作原理和实践方法。 >> 加入极市CV技术交流群,走在计算机视觉的最前沿 在序列并行系列中,我们将详细介绍下面四种常用的框架/方法: 1.Megatron Sequence Parallelism:本质是想通过降低单卡激活值大小的方式,尽可能多保存激活值,少做重计算,以此提升整体训练速度,一般和它家的tp配套使用。 2.DeepSpeed Ulysses:我们知道ds家的zero是模型并行的形式,数据并行的本质。在这个情况下,单张卡是完整地做一条序列的MHA过程的,序列长度较长时,就会对单卡显存产生压力。所以Ulysses的解决办法是,让单张卡只算全部seq的某个/某些head的结果,具体实践起来就是先通过按seq维度切割卡的输入,再通过all2all通讯来做。 3.
………………………………