专栏名称: 瓦力算法学研所
我们是一个致力于分享人工智能、机器学习和数据科学方面理论与应用知识的公众号。我们将分享最新的人工智能和数据科学技术、案例、研究成果、新闻和趋势,以及如何应用这些技术来解决实际问题,探索每一项技术落地的可行性方案。
今天看啥  ›  专栏  ›  瓦力算法学研所

如何预估训练或推理大模型时所需要的显存?解析不同参数下大模型显存量化方法

瓦力算法学研所  · 公众号  ·  · 2024-07-10 10:00
    

文章预览

技术总结专栏 作者:喜欢卷卷的瓦力 本篇讲述如何根据模型参数量,参数设置以及batch size推理所需要的GPU显存。 假设现在想要全参数训练一个llama-6B的模型,那么如何预估自己需要准备多大 显存的卡? 当fp32、fp16、int8模式下时显存大小具体又 有什么变化呢?本篇来解答这个问题。 下面是一个快捷目录。 1. 大模型RAM构成 2. 一个大模型显存计算示例  一、大模型RAM构成 大模型所需要 的考虑的显存包 括三个部分:模型本身, CUDA kernel,batch大小 1.模型本身 模型本身需要的 RAM 大致分三个部分:模型参数、梯度、优化器参数 模型参数 等于参数量 * 每个参数所需内存。 那么我们首先考虑精度对所需内存的影响: fp32 精度,一个参数需要 32 bits, 4 bytes; fp16 精度,一个参数需要 16 bits, 2 bytes; int8 精度,一个参数需要 8 bits, 1 byte。 梯度 同模型参数, ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览