专栏名称: 吃果冻不吐果冻皮
专注于AI工程化(LLM、MLOps、LLMOps、RAG、Agent)落地。
今天看啥  ›  专栏  ›  吃果冻不吐果冻皮

量化方法怎么选?如何评估量化后的大模型LLM?

吃果冻不吐果冻皮  · 公众号  ·  · 2024-08-06 01:14

文章预览

【点击】 加入大模型技术交流群 原文:https://zhuanlan.zhihu.com/p/695144724 文章内容总结自:Evaluating Quantized Large Language Models(https://arxiv.org/abs/2402.18158), 如果想深入了解量化的基本概念和如何用代码实现请参考:用python代码深入浅出量化概念(https://zhuanlan.zhihu.com/p/696986233) 文章总结 本文都是针对PTQ如何选择和应用量化技术的建议: 评估量化对各种NLP任务的影响 评估量化对不同LLMs的影响 不同的Tensor类型对量化的影响 不同的量化方法对模型的影响 根据实验结果的几个关键见解如下: 模型越大,对仅权重和KV缓存量化的容忍度越高,而对激活量化的容忍度较低。 利用专家混合(MoE)技术增加模型大小并不一定增强模型对量化的容忍度。 对于大多数NLP任务,将大多数LLM家族量化为W4、W4A8、KV4和W8KV4,性能损失可以忽略不计( < 2%)。在一定的内存预 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览