文章预览
本文将分析大语言模型训练的GPU内存需求,主要包括三个方面: 训练数十亿参数基于Transformer的LLM时,每个GPU设备需要多少GPU内存; 估算内存需求的公式是什么; 如果模型无法匹配内存,在实践中应采取哪些措施来减少内存需求。 (本文由OneFlow编译发布,转载请联系授权。原文:https://medium.com/@maxshapp/understanding-and-estimating-gpu-memory-demands-for-training-llms-in-practise-c5ef20a4baff) 作者 | Max Shap 翻译| 张雪聃、林心宇 OneFlow编译 题图由 SiliconCloud 平台生成 1 是什么占用了GPU 内存 ? 这是当我在首次训练一个数十亿参数的LLM时,一看到错误就立刻问自己的第一个问题: RuntimeError: CUDA out of memory(运行时错误:CUDA内存不足) 我敢打赌,每个机器学习工程师都见过这个报错成千上万次。在深度学习模型的早期时代(例如VGG或ResNet),常见解决方案是减少batch_size
………………………………