专栏名称: AINLP
关注AI、NLP相关技术,关注算法研发职位和课程;回复"文章"获取历史信息;双语聊天机器人"无名";中英翻译请输入:翻译 翻译内容;自动对联,请输入:上联 上联内容;调戏夸夸聊天机器人,请求夸、求赞;查询相似词,请输入: 相似词 词条
今天看啥  ›  专栏  ›  AINLP

大模型推理过程与显存占用

AINLP  · 公众号  ·  · 2025-03-03 10:10
    

文章预览

前言 进入大模型时代后,由于大模型本身属于 Decoder 架构,是一个个 token 输出的,那么如何加速大模型的推理成为非常重要的工作,那么研究清楚大模型的推理过程还是非常有必要的。 大模型推理时的显存占用 在正常大模型推理过程中,显存的主要占用为: 模型参数权重,输入输出数据,中间激活值,kv cache 等,其中, 模型参数权重 占大头,大概占比在80%以上,其余的开销占比在20%以内,因此可以粗算为: 推理时显存占用 = 1.2 * 模型参数。 我们以一个 7B 模型为例,当我们采用 bf16 来进行推理时, 模型参数所占内存为:7 * 2 = 14GB ,那么此时所需的总推理显存为:14 * 1.2 ≈ " role="presentation" style="display: inline-block; font-style: normal; font-weight: normal; line-height: normal; font-size: 16px; font-size-adjust: none; text-indent: 0px; text-align: left; text-transform: none; letter-spacing ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览