专栏名称: oldpan博客
老潘的博客,程序员眸中的fantasy life,分享AI技术干货,让大家少走弯路~
今天看啥  ›  专栏  ›  oldpan博客

大模型量化技术原理:FP8

oldpan博客  · 公众号  ·  · 2024-08-27 10:10
    

文章预览

【点击】 加入大模型技术交流群 近年来,随着Transformer、MOE架构的提出,使得深度学习模型轻松突破上万亿规模参数,从而导致模型变得越来越大,因此,我们需要一些大模型压缩技术来降低模型部署的成本,并提升模型的推理性能。模型压缩主要分为如下几类: 剪枝(Pruning) 知识蒸馏(Knowledge Distillation) 量化Quantization) 本系列将针对一些常见大模型量化方案(GPTQ、LLM.int8()、SmoothQuant、AWQ等)进行讲述。 大模型量化概述 量化感知训练: 大模型量化感知训练技术原理:LLM-QAT 大模型量化感知微调技术原理:QLoRA 训练后量化: 大模型量化技术原理:GPTQ、LLM.int8() 大模型量化技术原理:SmoothQuant 大模型量化技术原理:AWQ、AutoAWQ 大模型量化技术原理:SpQR 大模型量化技术原理:ZeroQuant系列 大模型量化技术原理:FP8 大模型量化技术原理:FP6 大模型 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览