专栏名称: AINLP
关注AI、NLP相关技术,关注算法研发职位和课程;回复"文章"获取历史信息;双语聊天机器人"无名";中英翻译请输入:翻译 翻译内容;自动对联,请输入:上联 上联内容;调戏夸夸聊天机器人,请求夸、求赞;查询相似词,请输入: 相似词 词条
目录
今天看啥  ›  专栏  ›  AINLP

如何用1024张显卡训练一个模型

AINLP  · 公众号  ·  · 2024-09-20 18:21
    

文章预览

作者 :你的真实姓名  链接 :https://www.zhihu.com/question/650979052 最近看到知乎一个回答,把千卡训练的难度吹上天了。但其实真正用过千卡就会发现也就那么几个点。于是想写一篇文章简单讲讲。 本文将包括几个部分: 首先我们将讨论千卡训练的难题,以及应该在什么时候使用千卡训练; 接着,我们将讨论如何在一千张卡上开始训练,如何让他达到近乎线性的性能提升; 然后我们将展开讨论一些千卡训练当中仍然悬而未决(至少对于开源社区来说)的问题 为什么千卡训练是困难的? 其实那篇回答在这部分说的没错。千卡训练和八卡训练的区别是—显卡多了一百多倍。这意味着什么呢? 通信时间增加 故障概率增加 这俩问题都很好理解。时间上,PyTorch内部支持NCCL/Gloo/MPI三个通信后端(请务必使用NCCL。其中AllReduce操作会根据具体硬件配置走Ring AllR ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览