注册
登录
专栏名称:
大猿搬砖简记
学会计出身的码农,和大家一起学习。
我也要提交微信公众号
今天看啥
微信公众号rss订阅, 微信rss, 稳定的RSS源
微信公众号RSS订阅方法
B站投稿RSS订阅方法
微博RSS订阅方法
微博搜索关键词订阅方法
豆瓣日记 RSS订阅方法
目录
相关文章推荐
简单心理
·
1V1参观北京·心理健康中心|简单森林限时招募
·
昨天
小众软件
·
《我的大鼠标》发布,但...我都觉得它没用
·
昨天
小众软件
·
另外两件事[241226]
·
2 天前
APPSO
·
OpenAI ...
·
3 天前
今天看啥
›
专栏
›
大猿搬砖简记
图解大模型训练系列:序列并行4,Megatron Context Parallel
大猿搬砖简记
·
公众号
· · 2024-11-06 21:32
文章预览
在序列并行系列中,我们将详细介绍下面四种常用的框架/方法: Megatron Sequence Parallelism :本质是想通过降低单卡激活值大小的方式,尽可能多保存激活值,少做重计算,以此提升整体训练速度,一般和它家的tp配套使用。 DeepSpeed Ulysses :我们知道ds家的zero是模型并行的形式,数据并行的本质。在这个情况下,单张卡是完整地做一条序列的MHA过程的,序列长度较长时,就会对单卡显存产生压力。所以Ulysses的解决办法是,让单张卡只算全部seq的某个/某些head的结果,具体实践起来就是先通过按seq维度切割卡的输入,再通过all2all通讯来做。 Ring Attention :相当于分布式的Flash Attention V2(我个人的理解),它最终的效果是让每张卡只算自己所维护的那部分seq_chunk的MHA。 Megatron Context Parallelism :可以看成是增强版的sp,引入了类ring-attention的技术(在tp-pp-dp ra ………………………………
原文地址:
访问原文地址
快照地址:
访问文章快照
总结与预览地址:
访问总结与预览
分享到微博
推荐文章
简单心理
·
1V1参观北京·心理健康中心|简单森林限时招募
昨天
小众软件
·
《我的大鼠标》发布,但...我都觉得它没用
昨天
小众软件
·
另外两件事[241226]
2 天前
APPSO
·
OpenAI 被曝正在研发人形机器人/京东提前发年终奖,最高 23 薪/肯德基回应在中国涨价
3 天前
中国农业银行西藏分行
·
全国土地日|每一种色彩 都值得我们去守护
6 月前
彬杉科技咨询
·
期货高手完整的一天:非常高效的交易习惯
5 月前