注册
登录
专栏名称:
机器学习社区
公众号后台回复:加群,参与技术讨论,专注前沿人工智能、机器学习、Python开发
我也要提交微信公众号
今天看啥
微信公众号rss订阅, 微信rss, 稳定的RSS源
微信公众号RSS订阅方法
B站投稿RSS订阅方法
微博RSS订阅方法
微博搜索关键词订阅方法
豆瓣日记 RSS订阅方法
目录
相关文章推荐
田俊国讲坛
·
【12月7日】 ...
·
昨天
田俊国讲坛
·
【12月21-22日】心智突围工作坊第八期( ...
·
2 天前
田俊国讲坛
·
【12月21-22日】心智突围工作坊第八期( ...
·
3 天前
田俊国讲坛
·
【11月26日】财智觉醒:富足人生的五大账户 ...
·
4 天前
田俊国讲坛
·
【12月21-22日】心智突围工作坊第八期( ...
·
5 天前
今天看啥
›
专栏
›
机器学习社区
经验分享:大模型千卡训练
机器学习社区
·
公众号
· · 2024-09-18 08:12
文章预览
↓ 推荐关注↓ 最近看到知乎一个回答,把千卡训练的难度吹上天了。但其实真正用过千卡就会发现也就那么几个点。于是想写一篇文章简单讲讲。 本文将包括3个部分:首先我们将讨论千卡训练的难题,以及应该在什么时候使用千卡训练;接着,我们将讨论如何在一千张卡上开始训练,如何让他达到近乎线性的性能提升;最后我们将展开讨论一些千卡训练当中仍然悬而未决(至少对于开源社区来说)的问题。 为什么千卡训练是困难的? 千卡训练和八卡训练的区别是—显卡多了一百多倍。 这意味着什么呢? 通信时间增加 故障概率增加 这俩问题都很好理解。 时间上,PyTorch内部支持NCCL/Gloo/MPI三个通信后端(请务必使用NCCL。其中AllReduce操作会会根据具体硬件配置走Ring AllReduce和Tree AllReduce。Ring的时间复杂度是 ,Tree的时间复杂度是 。就算是理论上1 ………………………………
原文地址:
访问原文地址
快照地址:
访问文章快照
总结与预览地址:
访问总结与预览
分享到微博
推荐文章
田俊国讲坛
·
【12月7日】 田俊国老师线下公开课《为促进学生改变而教学》开启招生!
昨天
田俊国讲坛
·
【12月21-22日】心智突围工作坊第八期(北京班),生命从此升维!
2 天前
田俊国讲坛
·
【12月21-22日】心智突围工作坊第八期(北京班),生命从此升维!
3 天前
田俊国讲坛
·
【11月26日】财智觉醒:富足人生的五大账户共修 & 实战营
4 天前
田俊国讲坛
·
【12月21-22日】心智突围工作坊第八期(北京班),生命从此升维!
5 天前
羊羊的地理教室
·
【每日一练】湿地(Day 1103)
1 月前