整理自然语言处理、推荐系统、搜索引擎等AI领域的入门笔记,论文学习笔记和面试资料(关于NLP那些你不知道的事、关于推荐系统那些你不知道的事、NLP百面百搭、推荐系统百面百搭、搜索引擎百面百搭)
目录
今天看啥  ›  专栏  ›  关于NLP那些你不知道的事

Llama 3.1-405B训练推理技术

关于NLP那些你不知道的事  · 公众号  ·  · 2024-07-25 07:00
    

文章预览

作者:手抓饼熊 原 文 地址: https://zhuanlan.zhihu.com/p/710665670 本文分享Llama 3.1-405B训练和推理部分的内容。 总结部分 序列并行 Llama3.1 序列并行没有使用流行的Ring Attention和Ulysess,而是使用了AllGather方法 ,这个方法笔者之前认为是一种比较好的方法。手抓饼熊:图解序列并行云台28将(上篇) 第13 。 混合并行 采用了 TP + FSDP + PP + CP,配置如下表。 首先花一点分析一下为什么会有4D并行这个历史背景。我们知道TP和PP既然都可以切分模型,那么就采用一个一直切就好了,为何同时使用2个。答案如下: TP TP的缺点是前向和后向都有2次AllReduce,但是优点是可以横向切分矩阵,同时也切分了激活(这样就从参数、优化器和激活3个层面都减少了显存); 那么为什么不把TP搞成64那种很大的呢,原因是Allreduce跨机器通信比较慢,机器间带宽不如nvlink高,而 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览