注册
登录
专栏名称:
NLP工作站
AIGC前沿知识分享&落地经验总结
我也要提交微信公众号
今天看啥
微信公众号rss订阅, 微信rss, 稳定的RSS源
微信公众号RSS订阅方法
B站投稿RSS订阅方法
微博RSS订阅方法
微博搜索关键词订阅方法
豆瓣日记 RSS订阅方法
目录
相关文章推荐
药渡
·
首款!默沙东抗肿瘤新药HIF-2α抑制剂国内 ...
·
12 小时前
药渡
·
11月26日直播 | ...
·
4 天前
药明康德
·
显著延缓心衰恶化!礼来重磅疗法3期结果登《新 ...
·
1 周前
今天看啥
›
专栏
›
NLP工作站
大模型千卡训练-经验指北
NLP工作站
·
公众号
· · 2024-09-15 13:13
文章预览
作者:你的真实姓名 知乎:https://www.zhihu.com/question/650979052/answer/3501160453 最近看到知乎一个回答,把千卡训练的难度吹上天了。但其实真正用过千卡就会发现也就那么几个点。于是想写一篇文章简单讲讲。 本文将包括3个部分:首先我们将讨论千卡训练的难题,以及应该在什么时候使用千卡训练;接着,我们将讨论如何在一千张卡上开始训练,如何让他达到近乎线性的性能提升;最后我们将展开讨论一些千卡训练当中仍然悬而未决(至少对于开源社区来说)的问题。 为什么千卡训练是困难的? 千卡训练和八卡训练的区别是—显卡多了一百多倍。 这意味着什么呢? 通信时间增加 故障概率增加 这俩问题都很好理解。 时间上,PyTorch内部支持NCCL/Gloo/MPI三个通信后端(请务必使用NCCL。其中AllReduce操作会会根据具体硬件配置走Ring AllReduce和Tree AllReduce。Rin ………………………………
原文地址:
访问原文地址
快照地址:
访问文章快照
总结与预览地址:
访问总结与预览
分享到微博
推荐文章
药渡
·
首款!默沙东抗肿瘤新药HIF-2α抑制剂国内获批上市
12 小时前
药渡
·
11月26日直播 | 小分子原料药和药品制剂生产中遗传毒性杂质和其他杂质的分析和结构鉴定
4 天前
药明康德
·
显著延缓心衰恶化!礼来重磅疗法3期结果登《新英格兰医学杂志》
1 周前
半导体投资联盟
·
【芯融资】识光完成Pre-A+轮融资,系VCSEL+SPAD激光雷达技术路线先行者
5 月前
清华经管学院职业发展中心
·
招聘 | 京东2025管理培训生招募正式启动!
4 月前
芯海科技
·
集创西南 共育栋梁|第八届集创赛“芯海杯”西南赛区决赛颁奖典礼圆满落幕
4 月前
iOS中文站
·
壁纸 | 最近 Tiktok 上火了的手机壁纸
3 月前
李月亮
·
清华学霸死磕出来的内裤!100%桑蚕丝,穿了会上瘾!
4 周前