专栏名称: 瓦力算法学研所

我们是一个致力于分享人工智能、机器学习和数据科学方面理论与应用知识的公众号。我们将分享最新的人工智能和数据科学技术、案例、研究成果、新闻和趋势，以及如何应用这些技术来解决实际问题，探索每一项技术落地的可行性方案。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

大模型面经—分布式训练指南

瓦力算法学研所 · 公众号 · · 2024-11-03 10:30

文章预览

技术总结专栏作者：喜欢卷卷的瓦力分布式训练指南理论篇。本篇来总结一些分布式训练的知识，还是按照面经的形式给出，希望能给到大家一些帮助。题目 1 训练一个LLM，需要的显存规模跟参数的关系是什么？ 2. 如果有N张显存足够大的显卡，怎么加速训练？ 3. 如果有N张显卡，但每个显卡显存都不足以装下一个完整的模型，应该怎么办？ 4. PP推理时是串行的，1个GPU计算但其他空闲，有什么其他的优化方式？ 5. DP、TP、PP这3种并行方式可以叠加吗？ 6. 3D并行或者直接上多机多卡的ZeRO的条件是什么？答案 1. 训练一个LLM，需要的显存跟参数的关系是什么？主要公式是模型本身占用显存 + 多个batch数据运算的存储，跟实际精度，模型大小、中间变量计算以及batch邮官这块之前有讲过，具体可以参考如何预估训练或推理大模型时所需要的 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博