专栏名称: 江大白
专业有趣的AI内容平台,关注后回复【算法】,获取45家大厂的《人工智能算法岗江湖武林秘籍》
今天看啥  ›  专栏  ›  江大白

深入浅出,大模型训练和推理显存评估及量化方法

江大白  · 公众号  ·  · 2024-07-18 08:00

文章预览

以下 文 章来源于微信公众号:瓦力算法学研所 作者:喜欢卷卷的瓦力 链接:https://mp.weixin.qq.com/s/as7gY2DOih-pcWv4bchHRw 本文仅用于学术分享,如有侵权,请联系 后 台作删文处理 导读 如何充分利用GPU是每个从事深度学习相关工作的同学必须掌握的技能。本篇讲述如何根据模型参数量、参数设置以及batch size推理所需要的GPU显存。 假设现在想要全参数训练一个llama-6B的模型,那么如何预估自己需要准备多大 显存的卡? 当fp32、fp16、int8模式下时显存大小具体又 有什么变化呢?本篇来解答这个问题。 下面是一个快捷目录。 1. 大模型RAM构成 2. 一个大模型显存计算示例  一、大模型RAM构成 大模型所需要 的考虑的显存包 括三个部分:模型本身, CUDA kernel,batch大小 1.模型本身 模型本身需要的 RAM 大致分三个部分:模型参数、梯度、优化器参数 模型参数 等于 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览