专栏名称: 瓦力算法学研所
我们是一个致力于分享人工智能、机器学习和数据科学方面理论与应用知识的公众号。我们将分享最新的人工智能和数据科学技术、案例、研究成果、新闻和趋势,以及如何应用这些技术来解决实际问题,探索每一项技术落地的可行性方案。
今天看啥  ›  专栏  ›  瓦力算法学研所

大模型面经—分布式训练指南

瓦力算法学研所  · 公众号  ·  · 2024-11-03 10:30
    

文章预览

技术总结专栏 作者:喜欢卷卷的瓦力 分布式训练指南理论篇。 本篇来总结一些分布式训练的知识,还是按照面经的形式给出,希望能给到大家一些帮助。  题目 1 训练一个LLM,需要的显存规模跟参数的关系是什么? 2. 如果有N张显存足够大的显卡,怎么加速训练? 3. 如果有N张显卡,但每个显卡显存都不足以装下一个完整的模型,应该怎么办? 4. PP推理时是串行的,1个GPU计算但其他空闲,有什么其他的优化方式? 5. DP、TP、PP这3种并行方式可以叠加吗? 6. 3D并行或者直接上多机多卡的ZeRO的条件是什么?  答案 1. 训练一个LLM,需要的显存跟参数的关系是什么? 主要公式是  模型本身占用显存  + 多个batch数据运算的存储 , 跟实际精度,模型大小、中间变量计算以及batch邮官 这块之前有讲过,具体可以参考  如何预估训练或推理大模型时所需要的 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览