专栏名称: oldpan博客
老潘的博客,程序员眸中的fantasy life,分享AI技术干货,让大家少走弯路~
今天看啥  ›  专栏  ›  oldpan博客

LLM推理量化:FP8 VS INT8

oldpan博客  · 公众号  ·  · 2024-07-11 07:45
    

文章预览

原文:https://zhuanlan.zhihu.com/p/694120813 1 背景 模型量化是一种模型压缩技术。在LLM中,模型量化主要是将FP32/FP16/BF16的权重、激活值或KV Cache使用INT8/FP8/INT4/FP4表示。LLM推理量化中,量化依据不同,量化分类也不同,具体可见下图。本文主要关注LLM PTQ(Post Training Quantization)量化,量化收益主要有以下3个方面: 显存收益:LLM权重占用的显存远远超过传统AI模型权重占用的显存,甚至影响LLM在部分GPU上的可运行性。因此对LLM权重进行量化,在显存占用方面会有很大的收益。 吞吐收益:LLM推理过程中KV Cache的显存占用量较大, 将KV Cache量化后存储,可以将更多请求的KV Cache保存到显存中 ,从而极大地增加模型吞吐,降低推理成本。 延迟收益:LLM推理的 Decoding阶段主要是访存受限,权重或者激活值量化后,算子的访存压力相应减少 ,同时大部分Nvidia GPU上低 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览