专栏名称: 机器学习社区

公众号后台回复:加群，参与技术讨论，专注前沿人工智能、机器学习、Python开发

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

相关文章推荐

光明网 · “猫眼专业版”App被指数据抄袭，官方致歉 · 15 小时前

游资研报 · 元道通信：手握3万P，腾讯算力新标的，目标空 ... · 昨天

FM1031济南交通广播 · Manus创始人称产品基于阿里千问大模型开发 · 昨天

默安科技 · 默安科技推出全场景大模型安全防护方案 ... · 2 天前

FreeBuf · Sitecore 曝零日漏洞，可执行任意代码攻击 · 3 天前

今天看啥 › 专栏 › 机器学习社区

经验分享：大模型千卡训练

机器学习社区 · 公众号 · · 2024-09-18 08:12

文章预览

↓ 推荐关注↓ 最近看到知乎一个回答，把千卡训练的难度吹上天了。但其实真正用过千卡就会发现也就那么几个点。于是想写一篇文章简单讲讲。本文将包括3个部分：首先我们将讨论千卡训练的难题，以及应该在什么时候使用千卡训练；接着，我们将讨论如何在一千张卡上开始训练，如何让他达到近乎线性的性能提升；最后我们将展开讨论一些千卡训练当中仍然悬而未决（至少对于开源社区来说）的问题。为什么千卡训练是困难的？千卡训练和八卡训练的区别是—显卡多了一百多倍。这意味着什么呢？通信时间增加故障概率增加这俩问题都很好理解。时间上，PyTorch内部支持NCCL/Gloo/MPI三个通信后端（请务必使用NCCL。其中AllReduce操作会会根据具体硬件配置走Ring AllReduce和Tree AllReduce。Ring的时间复杂度是，Tree的时间复杂度是。就算是理论上1 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

光明网 · “猫眼专业版”App被指数据抄袭，官方致歉

15 小时前

光明网 · “猫眼专业版”App被指数据抄袭，官方致歉

15 小时前

游资研报 · 元道通信：手握3万P，腾讯算力新标的，目标空间300%+！

昨天

游资研报 · 元道通信：手握3万P，腾讯算力新标的，目标空间300%+！

昨天

FM1031济南交通广播 · Manus创始人称产品基于阿里千问大模型开发

昨天

FM1031济南交通广播 · Manus创始人称产品基于阿里千问大模型开发

昨天

默安科技 · 默安科技推出全场景大模型安全防护方案构筑AI时代安全防线

2 天前

FreeBuf · Sitecore 曝零日漏洞，可执行任意代码攻击

3 天前

唐诗宋词欣赏 · 王勃和王维都是天才诗人，各写下一首《山中》，千百年来高下难分

7 月前

一房一万 · 南上海顶配泛会所！超前兑现，海派美学泛会所全景呈现！

5 月前

DataFunSummit · 电子书上新 |《快手 BI 大数据分析场景性能优化实践》

1 月前