文章预览
作者:手抓饼熊 原 文 地址: https://zhuanlan.zhihu.com/p/710665670 本文分享Llama 3.1-405B训练和推理部分的内容。 总结部分 序列并行 Llama3.1 序列并行没有使用流行的Ring Attention和Ulysess,而是使用了AllGather方法 ,这个方法笔者之前认为是一种比较好的方法。手抓饼熊:图解序列并行云台28将(上篇) 第13 。 混合并行 采用了 TP + FSDP + PP + CP,配置如下表。 首先花一点分析一下为什么会有4D并行这个历史背景。我们知道TP和PP既然都可以切分模型,那么就采用一个一直切就好了,为何同时使用2个。答案如下: TP TP的缺点是前向和后向都有2次AllReduce,但是优点是可以横向切分矩阵,同时也切分了激活(这样就从参数、优化器和激活3个层面都减少了显存); 那么为什么不把TP搞成64那种很大的呢,原因是Allreduce跨机器通信比较慢,机器间带宽不如nvlink高,而
………………………………