专栏名称: GiantPandaCV
专注于机器学习、深度学习、计算机视觉、图像处理等多个方向技术分享。团队由一群热爱技术且热衷于分享的小伙伴组成。我们坚持原创,每天一到两篇原创技术分享。希望在传播知识、分享知识的同时能够启发你,大家一起共同进步(・ω<)☆
目录
相关文章推荐
今天看啥  ›  专栏  ›  GiantPandaCV

我爱DeepSpeed-Ulysses:重新审视大模型序列并行技术

GiantPandaCV  · 公众号  · 3D  · 2024-07-08 23:09

文章预览

作者丨方佳瑞 来源丨https://zhuanlan.zhihu.com/p/703669087 编辑丨GiantPandaCV 题记: 2024/06/17 updates:本文之前题目是《告别DeepSpeed-Ulysses,来用Odysseus:重新审视大模型序列并行技术》,试图对Ulysses进行优化,来设计通信更优的方法。经过网友指正,我对Ulysses的通信开销估计有误,努力都是徒劳。改正后,我发现Ulysses真香。原文我也不删了,读者评论非常有意义。我对有问题的论断做了一些标注,供大家参考。 前言: 众所周知,笔者最近在研究大模型的 序列并行 技术。我在知乎比较过DeepSpeed-Ulysses和Ring-Attention,提出了一种融合二者的混合序列并行USP(Unified Sequence Parallelism),讨论和4D并行的最佳实践和一些实际应用前景。 序列并行做大模型训练,你需要知道的六件事 USP以其易于实现和性能只增不减无副作用的优势,被很多人开始使用。大家也都发现 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览