文章预览
作者丨进击的Killua 来源丨https://zhuanlan.zhihu.com/p/695267503 编辑丨GiantPandaCV 本文主要对近年流行和经典的LLM PTQ量化算法论文进行一些汇总和分析。由于每篇详解的文章很多,本文不会逐篇做非常细致的讲解,主要对LLM量化算法的发展演进和核心思想方法做一些归纳,希望能触发一些思考和讨论。 GPTQ GPTQ: ACCURATE POST-TRAINING QUANTIZATION FOR GENERATIVE PRE-TRAINED TRANSFORMERS (https://arxiv.org/abs/2210.17323) Code: https://github.com/IST-DASLab/gptq Type:W4A16 首先介绍GPTQ,它在LLM PTQ方向的历史地位已经毋庸置疑了,因其出色的效果得到广泛应用。它的背景非常悠久(OBD->OBS->OBQ->GPTQ),从最早的 Yann LeCun 在 1990 年提出的 OBD 算法,到 OBS、OBQ算法,再到GPTQ ,也算是站在巨人的肩膀上。GPTQ的出发点很朴素,就是试图 最小化weight量化后和量化前的层函数误差 ,经过一系列复杂的数学求解
………………………………