大模型量化技术原理：FP8

吃果冻不吐果冻皮 · 公众号 · · 2024-08-20 11:45

文章预览

【点击】加入大模型技术交流群近年来，随着Transformer、MOE架构的提出，使得深度学习模型轻松突破上万亿规模参数，从而导致模型变得越来越大，因此，我们需要一些大模型压缩技术来降低模型部署的成本，并提升模型的推理性能。模型压缩主要分为如下几类：剪枝（Pruning）知识蒸馏（Knowledge Distillation）量化Quantization）本系列将针对一些常见大模型量化方案（GPTQ、LLM.int8()、SmoothQuant、AWQ等）进行讲述。大模型量化概述量化感知训练：大模型量化感知训练技术原理：LLM-QAT 大模型量化感知微调技术原理：QLoRA 训练后量化：大模型量化技术原理：GPTQ、LLM.int8() 大模型量化技术原理：SmoothQuant 大模型量化技术原理：AWQ、AutoAWQ 大模型量化技术原理：SpQR 大模型量化技术原理：ZeroQuant系列大模型量化技术原理：FP8 大模型量化技术原理：FP6 大模型 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博