专栏名称: 深度学习自然语言处理

一个从大三就接触NLP的小小NLPer，本公众号每天记录自己的一点一滴，每篇文章最后也有托福单词等新知识，学技术同时，也一点一滴积累额外的知识。期待与你在知识的殿堂与你相遇！

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

如何用1024张显卡训练一个模型

深度学习自然语言处理 · 公众号 · · 2024-09-14 22:03

文章预览

知乎：你的真实姓名链接：https://www.zhihu.com/question/650979052 最近看到知乎一个回答，把千卡训练的难度吹上天了。但其实真正用过千卡就会发现也就那么几个点。于是想写一篇文章简单讲讲。本文将包括几个部分：首先我们将讨论千卡训练的难题，以及应该在什么时候使用千卡训练；接着，我们将讨论如何在一千张卡上开始训练，如何让他达到近乎线性的性能提升；然后我们将展开讨论一些千卡训练当中仍然悬而未决（至少对于开源社区来说）的问题为什么千卡训练是困难的？其实那篇回答在这部分说的没错。千卡训练和八卡训练的区别是—显卡多了一百多倍。这意味着什么呢？通信时间增加故障概率增加这俩问题都很好理解。时间上，PyTorch内部支持NCCL/Gloo/MPI三个通信后端（请务必使用NCCL。其中AllReduce操作会根据具体硬件配置走Ring AllRed ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

IPO早知道 · 震坤行三季度财报：营收22.8亿元、毛利率增至17%，获富达国际等长线机构增持

昨天

黑马程序员 · GitHub年度报告发布，Python首次成为平台最顶级编程语言！

3 天前

黑马程序员 · GitHub年度报告发布，Python首次成为平台最顶级编程语言！

3 天前

纳米人 · 中国科学技术大学，Nature Chemistry！

4 天前

纳米人 · 中国科学技术大学，Nature Chemistry！

4 天前

课题指南针 · 本周六晚7点直播：国自然里面哪些“不好”但并非“不对”的坑或者注意事项

4 天前

DataFunTalk · Bilibili大数据生态组件权限设计

6 天前

国资智库 · 宁夏国资委印发《自治区属国有企业合规管理有效性评价指标体系》保障国有企业持续健康发展

2 月前

TechSugar · IC可靠性面临的新挑战

1 月前