专栏名称: 吃果冻不吐果冻皮
专注于AI工程化(LLM、MLOps、LLMOps、RAG、Agent)落地。
今天看啥  ›  专栏  ›  吃果冻不吐果冻皮

序列并行做大模型训练,你需要知道的六件事

吃果冻不吐果冻皮  · 公众号  ·  · 2024-05-26 20:58
    

文章预览

【点击】 加入大模型技术交流群 原文: https://zhuanlan.zhihu.com/p/698031151 Long Context LLM是近期研究的热点,如何训练超长序列的模型成为LLM Infra关注的重点。 序列并行(SP)是一种将输入序列维度进行切分的技术,它已成为训练和推理更长序列的一种有效方法。 经过两年的初步探索期,到2023年后期,两项里程碑式的工作,DeepSpeed-Ulysses和 Ring-Attention出现后,标志着序列并行技术的成熟。 但是,如何在真实业务场景环境中使用SP还有很多问题。DeepSpeed-Ulysses的SP并行度受到限制,不能超过注意力头的数量,而Ring-Attention的计算效率由于矩阵乘法的细分而降低。更重要的是,SP如何和传统3D并行混合?加入SP构成4D混合并行会造成什么影响?还没有人给个明确说法。 最近,我们腾讯云异构计算团队在大模型序列并行训练上做了一些探索,形成了一套SP+DP+TP+PP 4D ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览