专栏名称: 关于NLP那些你不知道的事

整理自然语言处理、推荐系统、搜索引擎等AI领域的入门笔记，论文学习笔记和面试资料（关于NLP那些你不知道的事、关于推荐系统那些你不知道的事、NLP百面百搭、推荐系统百面百搭、搜索引擎百面百搭）

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

Llama 3.1-405B训练推理技术

关于NLP那些你不知道的事 · 公众号 · · 2024-07-25 07:00

文章预览

作者：手抓饼熊原文地址： https://zhuanlan.zhihu.com/p/710665670 本文分享Llama 3.1-405B训练和推理部分的内容。总结部分序列并行 Llama3.1 序列并行没有使用流行的Ring Attention和Ulysess，而是使用了AllGather方法，这个方法笔者之前认为是一种比较好的方法。手抓饼熊：图解序列并行云台28将（上篇）第13 。混合并行采用了 TP + FSDP + PP + CP，配置如下表。首先花一点分析一下为什么会有4D并行这个历史背景。我们知道TP和PP既然都可以切分模型，那么就采用一个一直切就好了，为何同时使用2个。答案如下： TP TP的缺点是前向和后向都有2次AllReduce，但是优点是可以横向切分矩阵，同时也切分了激活（这样就从参数、优化器和激活3个层面都减少了显存）；那么为什么不把TP搞成64那种很大的呢，原因是Allreduce跨机器通信比较慢，机器间带宽不如nvlink高，而 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博