专栏名称: GiantPandaCV
专注于机器学习、深度学习、计算机视觉、图像处理等多个方向技术分享。团队由一群热爱技术且热衷于分享的小伙伴组成。我们坚持原创,每天一到两篇原创技术分享。希望在传播知识、分享知识的同时能够启发你,大家一起共同进步(・ω<)☆
目录
相关文章推荐
今天看啥  ›  专栏  ›  GiantPandaCV

图解大模型训练系列:序列并行2,DeepSpeed Ulysses

GiantPandaCV  · 公众号  · 3D  · 2024-11-05 16:42
    

文章预览

大家好,在序列并行系列中,我们已经介绍过了 Megatron SP ,今天这篇文章我们来看DeepSpeed Ulysses。 在正文开始前, 请允许我吐槽一下,DeepSpeed Ulysses继承了DS家一如既往的写作和coding风格:云里雾里,梦里心里,就是走不进你的脑子里 。所以虽然paper短小,coding改动也小,一 切都慷慨地开源了,但一切又好像没有开源 ,使整个理解过程变得过于眼鼻酸涩。举些例子来说: Ulysses的卖点之一【通讯量】竟然用一两句话就写过去了😢。 Ulysses SP的核心操作All2All过程,竟然用一个标着All2All的红箭头就概括过去了😢。 Ulysses + zero3这种官方安利的训练方法,竟然没有一个图例😢。 诸如此类。 所以本来想偷懒不看源码,最终又要从源码开始看起。那既然说起了代码,如果你也看过ds家的代码风格的话,那你应该懂我接下来没有记录下的这些眼泪(但ulysses相 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览