注册登录

专栏名称: 吃果冻不吐果冻皮

专注于AI工程化（LLM、MLOps、LLMOps、RAG、Agent）落地。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

目录

相关文章推荐

中核集团 · 中核集团与上海电气签署全面深化战略合作协议 · 昨天

中核集团 · 卓越绩效丨中核工程：追求极致安全，全力打造“ ... · 3 天前

AustinDatabases · 眼见高楼起，眼见高楼塌，MySQL的好日子到头了 · 4 天前

AustinDatabases · 眼见高楼起，眼见高楼塌，MySQL的好日子到头了 · 4 天前

今天看啥 › 专栏 › 吃果冻不吐果冻皮

大模型训练：Megatron-Core中的通信优化

吃果冻不吐果冻皮 · 公众号 · · 2024-06-19 22:32

文章预览

【点击】加入大模型技术交流群原文：https://zhuanlan.zhihu.com/p/694877232 提到大模型的训练框架，相信大家对Megatron-LM应该都比较熟悉。知乎上有不少文章介绍Megatron-LM对应的三篇论文，或者是源码实现，这些内容对于初学者的帮助很大。然而，和之前的文章不同。这篇文章的目的不是科普扫盲，也不是源码解析，而是从研究者的视角，简单地聊一聊Megatron-Core中的通信优化设计。分布式训练中的通信优化是我博士期间的老本行。在去年的一个学术会议上，我和一个学弟聊到了如何在Megatron-LM上做通信优化。尽管这样的想法十分常见，当时的代码库中却没有考虑这些。我们当时觉得可能是英伟达的集群带宽太高，并不太在意通信优化。没想到过了大概一年，这些想法已经全部在Megatron-Core中实现 [1] 。有趣的是，MegaScale同期也发表了论文，提到了类似的 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

中核集团 · 中核集团与上海电气签署全面深化战略合作协议

昨天

中核集团 · 卓越绩效丨中核工程：追求极致安全，全力打造“国际一流核能工程公司”

3 天前

AustinDatabases · 眼见高楼起，眼见高楼塌，MySQL的好日子到头了

4 天前

AustinDatabases · 眼见高楼起，眼见高楼塌，MySQL的好日子到头了

4 天前

INSIGHT视界 · 帝都，风云诡谲小升初

9 月前

销售与市场 · 价格暴跌63%！突然宣布：停产、闭店！

2 月前

重庆本地宝 · 2025重庆3C补贴包含儿童电话手表吗？

1 月前

关于移动版 · Py中国 · RSS之家 · CodingPro · Code · Link之家 · 卧龙AI搜索 · 小百科 · 51好读 · 小百科（海外） · Link管理

今天看啥 - 微信公众号rss订阅, 微信rss, 稳定的RSS源

© 2024 ~ 沪ICP备11025650号