专栏名称: GiantPandaCV
专注于机器学习、深度学习、计算机视觉、图像处理等多个方向技术分享。团队由一群热爱技术且热衷于分享的小伙伴组成。我们坚持原创,每天一到两篇原创技术分享。希望在传播知识、分享知识的同时能够启发你,大家一起共同进步(・ω<)☆
目录
相关文章推荐
今天看啥  ›  专栏  ›  GiantPandaCV

图解大模型训练系列:序列并行1,Megatron SP

GiantPandaCV  · 公众号  · 3D  · 2024-11-01 17:02
    

文章预览

大家好,最近在抽空整理之前“序列并行”相关的学习笔记,想着之前dp,pp,tp,ep都已经写过了,漏了一个sp总是有点遗憾,所以趁着最近有热情,赶紧补上来,也算是我对这一块的一些总结。 其实,序列并行是个很宽泛的概念, 虽然本质上都在seq维度做了切分,但各家解决问题的出发点和实际的操作方法都是不一样的 ,例如我们常见的序列并行框架/方法有: Megatron Sequence Parallelism :本质是想通过降低单卡激活值大小的方式,尽可能多保存激活值,少做重计算,以此提升整体训练速度,一般和它家的tp配套使用。 DeepSpeed Ulysses :我们知道ds家的zero是模型并行的形式,数据并行的本质。在这个情况下,单张卡是完整地做一条序列的MHA过程的,序列长度较长时,就会对单卡显存产生压力。 所以Ulysses的解决办法是,让单张卡只算部分head的结果 ,具 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览