这里是AI领域学习交流的平台!分享人工智能、机器学习、深度学习、计算机视觉、自然语言处理、算法原理、科技前沿、行业动态等,为您提供最有价值的知识和资讯。
今天看啥  ›  专栏  ›  人工智能与算法学习

Deepseek V3 预训练策略解读

人工智能与算法学习  · 公众号  ·  · 2025-01-02 14:58
    

文章预览

  作者:大润发杀鱼工@知乎 训练策略 集群 : 2048*H800,256 nodes,配备NVLink,NVSwitch,以及IB。 策略推测 : TP PP DP SP CP EP 1 16 128 1 1 64 策略评价 1.选择2048张卡进行训练,应该可以保证在一个大集群中进行这个训练。 2.策略中不开TP,机器内部优先为EP组,256个专家的64EP并行,则单张卡中应该是4个专家。 3.Deepseek论文中提到不使用TP策略,主要是开销非常大(文中costly),这似乎也表明EP和TP组在机内的优先级竞争,EP是最优解?因为在之前Mixtral 8x7B的Moe模型中,同样也是选择了将EP打满的策略。 12.27更新:xffxff:MoE 训练到底是开 TP 还是 EP?,解释了这个原因 [1] 4.提到使用了ZeRO-1(DP),但我估计实现的方法应该和Magetron的Distributed Optimizer优化一样。 DS分布式训练亮点分析 1.自研的轻量级HAI-LLM框架 2.双流并行的PP组steady阶段优化 3.PP组双向管道调度 4.Moe路由的All ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览