文章预览
来源于 https://blog.squeezebits.com/vllm-vs-tensorrtllm-6-weightonly-quantization-33728 继续比较 vllm 和 trtllm 前言 量化(Quantization) 是一种广泛应用于深度学习模型的压缩技术,可用于减少模型的存储需求并加速推理。对于 LLM(Large Language Models) 来说,量化尤为重要,因为这些模型包含大量参数,计算需求极高。 vLLM 和 TensorRT-LLM 都支持多种量化方法,为用户提供了更快部署 LLM 的可行方案。 在接下来的三篇文章中,我们将探讨 vLLM 和 TensorRT-LLM 支持的量化技术。本篇文章将重点介绍: Weight-Only Quantization 方法。 下一篇文章将讨论 Weight-Activation Quantization ,而最后一篇文章将介绍 KV Cache Quantization 在长上下文场景中的应用。 量化的效果会受到多种因素的影响,例如模型架构、模型大小、硬件条件以及模型并行性等。在本篇文章中,我们将使用 Llama-3.1 的一个
………………………………