序列并行做大模型训练，你需要知道的六件事

吃果冻不吐果冻皮 · 公众号 · · 2024-05-26 20:58

文章预览

【点击】加入大模型技术交流群原文： https://zhuanlan.zhihu.com/p/698031151 Long Context LLM是近期研究的热点，如何训练超长序列的模型成为LLM Infra关注的重点。序列并行（SP）是一种将输入序列维度进行切分的技术，它已成为训练和推理更长序列的一种有效方法。经过两年的初步探索期，到2023年后期，两项里程碑式的工作，DeepSpeed-Ulysses和 Ring-Attention出现后，标志着序列并行技术的成熟。但是，如何在真实业务场景环境中使用SP还有很多问题。DeepSpeed-Ulysses的SP并行度受到限制，不能超过注意力头的数量，而Ring-Attention的计算效率由于矩阵乘法的细分而降低。更重要的是，SP如何和传统3D并行混合？加入SP构成4D混合并行会造成什么影响？还没有人给个明确说法。最近，我们腾讯云异构计算团队在大模型序列并行训练上做了一些探索，形成了一套SP+DP+TP+PP 4D ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

速卖通草帽 · 年销30亿！速卖通上闯出一批“武汉出海人”

3 小时前

雨果网 · 深圳多个大卖接入DeepSeek！投喂姿势看差距

3 小时前

雨果网 · 大卖突然宣布歇业，所有店铺停运

昨天

三易菌 · 为了捡起全球购业务，拼多多如今盯上个人卖家

2 天前

三易菌 · 为了捡起全球购业务，拼多多如今盯上个人卖家

2 天前

雨果网 · TikTok Shop启动“产业带优品100+”合作伙伴招募！

3 天前

sven_shi · 这个可以仔细看下。关于未来预期的。北京这座城（一）：房产与户籍-20240605121611

8 月前

医心医考 · 2024中医执考系列176|中医重点梳理：西内篇（师承专长不要求）

6 月前

宝马客 · 提前说再见？宝马8系敞篷版、四门版或将于2026年4月停产

3 月前