注册登录

专栏名称: 包包算法笔记

数据挖掘、机器学习、深度学习、Kaggle竞赛分享与交流。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

目录

相关文章推荐

哈尔滨日报 · “多名游客手机被扒窃”，景德镇警方通报 · 昨天

哈尔滨日报 · 新买的“斯巴鲁森林人”，提车发现钥匙丢失、大 ... · 昨天

今天看啥 › 专栏 › 包包算法笔记

Deepseek V3 预训练策略解读

包包算法笔记 · 公众号 · · 2025-01-02 13:05

文章预览

作者：大润发杀鱼工原文：https://zhuanlan.zhihu.com/p/15073492309 训练策略集群： 2048*H800，256 nodes，配备NVLink，NVSwitch，以及IB。策略推测： TP PP DP SP CP EP 1 16 128 1 1 64 策略评价 1.选择2048张卡进行训练，应该可以保证在一个大集群中进行这个训练。 2.策略中不开TP，机器内部优先为EP组，256个专家的64EP并行，则单张卡中应该是4个专家。 3.Deepseek论文中提到不使用TP策略，主要是开销非常大(文中costly)，这似乎也表明EP和TP组在机内的优先级竞争，EP是最优解？因为在之前Mixtral 8x7B的Moe模型中，同样也是选择了将EP打满的策略。 12.27更新:xffxff：MoE 训练到底是开 TP 还是 EP？，解释了这个原因 [1] 4.提到使用了ZeRO-1(DP)，但我估计实现的方法应该和Magetron的Distributed Optimizer优化一样。 DS分布式训练亮点分析 1.自研的轻量级HAI-LLM框架 2.双流并行的PP组steady阶段优化 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

哈尔滨日报 · “多名游客手机被扒窃”，景德镇警方通报

昨天

哈尔滨日报 · 新买的“斯巴鲁森林人”，提车发现钥匙丢失、大灯出现移位……

昨天

武汉大学学生会 · 新生福利NO.7｜江城出行指南

7 月前

不二大叔 · 夫妻关系再好，永远别帮对方做这件事，除非你想离婚

6 月前

中国地理学会 · 会议通知 | 2024年中国城市与区域管理学术年会通知（第二号）

6 月前

品牌几何 · 你真的“逃离”朋友圈了吗？真实数据告诉你答案！

5 月前

新黄河 · “认亲16年亲爹是假的”男子找到生母：父亲已经离世

2 月前

关于移动版 · Py中国 · RSS之家 · CodingPro · Code · Link之家 · 卧龙AI搜索 · 小百科 · 51好读 · 小百科（海外） · Link管理

今天看啥 - 微信公众号rss订阅, 微信rss, 稳定的RSS源

© 2024 ~ 沪ICP备11025650号