图解大模型训练系列：序列并行1，Megatron SP

大猿搬砖简记 · 公众号 · · 2024-10-30 17:21

文章预览

大家好，最近在抽空整理之前“序列并行”相关的学习笔记，想着之前dp，pp，tp，ep都已经写过了，漏了一个sp总是有点遗憾，所以趁着最近有热情，赶紧补上来，也算是我对这一块的一些总结。其实，序列并行是个很宽泛的概念，虽然本质上都在seq维度做了切分，但各家解决问题的出发点和实际的操作方法都是不一样的，例如我们常见的序列并行框架/方法有： Megatron Sequence Parallelism ：本质是想通过降低单卡激活值大小的方式，尽可能多保存激活值，少做重计算，以此提升整体训练速度，一般和它家的tp配套使用。 DeepSpeed Ulysses ：我们知道ds家的zero是模型并行的形式，数据并行的本质。在这个情况下，单张卡是完整地做一条序列的MHA过程的，序列长度较长时，就会对单卡显存产生压力。所以Ulysses的解决办法是，让单张卡只算部分head的结果，具 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

小野说外贸 · 速卖通卖家必看！用好插件选品，轻松找到你的下一款爆品！

昨天

雨果网 · 重磅！TEMU半托管入驻支持以0库存发品

2 天前

起飞的金牌运营 · 拼多多海外版-TEMU简介

2 天前

跨境电商Eason · eBay使用什么第三方软件？eBay是如何选择产品的？

2 天前

跨境电商Eason · eBay使用什么第三方软件？eBay是如何选择产品的？

2 天前

雨果网 · 他从大疆离职，用7年做出全球市占率第一的产品

3 天前

人大就业 · 先锋人才进阶营 | 行测科目提升专题讲座来啦！

4 月前

Hozin · [交互套路]避免批量决策任务的“不确定”状态

4 月前

Hozin · [交互套路]避免批量决策任务的“不确定”状态

4 月前

酒醒梦已残 · 【ArcGIS】153.下载网页端矢量数据

3 月前

商科求职 · " 开挂的大学生求职到底有多爽？"

3 月前