专栏名称: 吃果冻不吐果冻皮
专注于AI工程化(LLM、MLOps、LLMOps、RAG、Agent)落地。
今天看啥  ›  专栏  ›  吃果冻不吐果冻皮

大模型量化技术原理:QoQ量化及QServe推理服务系统

吃果冻不吐果冻皮  · 公众号  ·  · 2024-11-22 11:45

文章预览

近年来,随着Transformer、MOE架构的提出,使得深度学习模型轻松突破上万亿规模参数,从而导致模型变得越来越大,因此,我们需要一些大模型压缩技术来降低模型部署的成本,并提升模型的推理性能。 模型压缩主要分为如下几类: 剪枝(Pruning) 知识蒸馏(Knowledge Distillation) 量化(Quantization) 本系列将针对一些常见大模型量化方案(GPTQ、LLM.int8()、SmoothQuant、AWQ等)进行讲述。 本系列将针对一些常见大模型量化方案(GPTQ、LLM.int8()、SmoothQuant、AWQ等)进行讲述。 大模型量化概述 量化感知训练: 大模型量化感知训练技术原理:LLM-QAT 大模型量化感知微调技术原理:QLoRA 训练后量化: 大模型量化技术原理:GPTQ、LLM.int8() 大模型量化技术原理:SmoothQuant 大模型量化技术原理:AWQ、AutoAWQ 大模型量化技术原理:SpQR 大模型量化技术原理:ZeroQuant系列 大 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览