文章预览
【点击】 加入大模型技术交流群 近年来,随着Transformer、MOE架构的提出,使得深度学习模型轻松突破上万亿规模参数,从而导致模型变得越来越大,因此,我们需要一些大模型压缩技术来降低模型部署的成本,并提升模型的推理性能。模型压缩主要分为如下几类: 剪枝(Pruning) 知识蒸馏(Knowledge Distillation) 量化(Quantization) 本系列将针对一些常见大模型量化方案(GPTQ、LLM.int8()、SmoothQuant、AWQ等)进行讲述。 大模型量化概述 量化感知训练: 大模型量化感知训练技术原理:LLM-QAT 大模型量化感知微调技术原理:QLoRA 训练后量化: 大模型量化技术原理:GPTQ、LLM.int8() 大模型量化技术原理:SmoothQuant 大模型量化技术原理:AWQ、AutoAWQ 大模型量化技术原理:SpQR 大模型量化技术原理:ZeroQuant系列 大模型量化技术原理:FP8 大模型量化技术原理:FP6 大模
………………………………