今天看啥  ›  专栏  ›  吃果冻不吐果冻皮

大模型训练:Megatron-Core中的通信优化

吃果冻不吐果冻皮  · 公众号  ·  · 2024-06-19 22:32
    

文章预览

【点击】 加入大模型技术交流群 原文:https://zhuanlan.zhihu.com/p/694877232 提到大模型的训练框架,相信大家对Megatron-LM应该都比较熟悉。知乎上有不少文章介绍Megatron-LM对应的三篇论文,或者是源码实现,这些内容对于初学者的帮助很大。 然而,和之前的文章不同。这篇文章的目的不是科普扫盲,也不是源码解析,而是从研究者的视角,简单地聊一聊Megatron-Core中的通信优化设计。 分布式训练中的通信优化是我博士期间的老本行。在去年的一个学术会议上,我和一个学弟聊到了如何在Megatron-LM上做通信优化。尽管这样的想法十分常见,当时的代码库中却没有考虑这些。 我们当时觉得可能是英伟达的集群带宽太高,并不太在意通信优化。没想到过了大概一年,这些想法已经全部在Megatron-Core中实现 [1] 。有趣的是,MegaScale同期也发表了论文,提到了类似的 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览