注册登录

专栏名称: 吃果冻不吐果冻皮

专注于AI工程化（LLM、MLOps、LLMOps、RAG、Agent）落地。

我也要提交微信公众号

今天看啥

公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词RSS订阅方法

知网期刊RSS订阅方法

即刻RSS订阅方法

目录

相关文章推荐

IPO早知道 · IPO周报｜沪上阿姨、绿茶餐厅均已通过港交所聆讯 · 18 小时前

创业家 · 选行业就是选命，最害怕左右一看，没人挣过钱 · 2 天前

上海科创汇 · 申报|普陀区2025年度（第22批）认定企业 ... · 2 天前

创乎 · 朋友圈，越卖自己越值钱 · 3 天前

今天看啥 › 专栏 › 吃果冻不吐果冻皮

大模型千卡训练总结

吃果冻不吐果冻皮 · 公众号 · · 2024-09-19 11:53

文章预览

原文：https://www.zhihu.com/question/650979052/answer/3501160453 最近看到知乎一个回答，把千卡训练的难度吹上天了。但其实真正用过千卡就会发现也就那么几个点。于是想写一篇文章简单讲讲。本文将包括3个部分：首先我们将讨论千卡训练的难题，以及应该在什么时候使用千卡训练；接着，我们将讨论如何在一千张卡上开始训练，如何让他达到近乎线性的性能提升；最后我们将展开讨论一些千卡训练当中仍然悬而未决（至少对于开源社区来说）的问题。为什么千卡训练是困难的？千卡训练和八卡训练的区别是—显卡多了一百多倍。这意味着什么呢？通信时间增加故障概率增加这俩问题都很好理解。时间上，PyTorch内部支持NCCL/Gloo/MPI三个通信后端（请务必使用NCCL。其中AllReduce操作会会根据具体硬件配置走Ring AllReduce和Tree AllReduce。Ring的时间复杂度是，Tr ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

IPO早知道 · IPO周报｜沪上阿姨、绿茶餐厅均已通过港交所聆讯

18 小时前

创业家 · 选行业就是选命，最害怕左右一看，没人挣过钱

2 天前

上海科创汇 · 申报|普陀区2025年度（第22批）认定企业技术中心

2 天前

创乎 · 朋友圈，越卖自己越值钱

3 天前

蓝点网 · 法国网络信息中心发布开源的DNS破坏应用IBDNS 供研究人员进行安全测试

10 月前

码农逆袭 · 离谱！入职BYD一个月，心态崩了。。。

7 月前

电脑吧评测室 · 【Open Car】年底都没啥了

3 月前

关于移动版 · Py中国 · RSS之家 · CodingPro · Code · Link之家 · 卧龙AI搜索 · 小百科 · 小百科（海外） · Link管理

今天看啥 - 公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

© 2025 ~ 沪ICP备11025650号