专栏名称: 深度学习自然语言处理

一个从大三就接触NLP的小小NLPer，本公众号每天记录自己的一点一滴，每篇文章最后也有托福单词等新知识，学技术同时，也一点一滴积累额外的知识。期待与你在知识的殿堂与你相遇！

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

一文讲明白大模型分布式逻辑（从GPU通信原语到Megatron、Deepspeed）

深度学习自然语言处理 · 公众号 · · 2024-09-27 22:26

文章预览

知乎：然荻链接：https://zhuanlan.zhihu.com/p/721941928 1. 背景介绍如果你拿到了两台8卡A100的机器（做梦），你的导师让你学习部署并且训练不同尺寸的大模型，并且写一个说明文档。你意识到，你最需要学习的就是关于分布式训练的知识，因为你可是第一次接触这么多卡，但你并不想深入地死磕那些看起来就头大的底层原理，你只想要不求甚解地理解分布式的基本运行逻辑和具体的实现方法。那么，我来帮你梳理关于大模型的分布式训练需要了解的知识。 1.1 分布式定义分布式就是把模型或者数据分散分布到不同的GPU去。为什么要分散到不同的GPU，当然是因为一个GPU的显存太小了（不管从为了训练加速还是模型太大塞不进去这两个角度来看，本质就是单个GPU显存不够）。为什么GPU显存这么小，是因为GPU对带宽的要求很高，能达到这样高带宽的内存都很 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博