[vLLM vs TensorRT-LLM] #6. Weight-Only Quantization 仅权重量化的性能比较

oldpan博客 · 公众号 · · 2025-02-24 17:36

文章预览

来源于 https://blog.squeezebits.com/vllm-vs-tensorrtllm-6-weightonly-quantization-33728 继续比较 vllm 和 trtllm 前言量化（Quantization）是一种广泛应用于深度学习模型的压缩技术，可用于减少模型的存储需求并加速推理。对于 LLM（Large Language Models）来说，量化尤为重要，因为这些模型包含大量参数，计算需求极高。 vLLM 和 TensorRT-LLM 都支持多种量化方法，为用户提供了更快部署 LLM 的可行方案。在接下来的三篇文章中，我们将探讨 vLLM 和 TensorRT-LLM 支持的量化技术。本篇文章将重点介绍: Weight-Only Quantization 方法。下一篇文章将讨论 Weight-Activation Quantization ，而最后一篇文章将介绍 KV Cache Quantization 在长上下文场景中的应用。量化的效果会受到多种因素的影响，例如模型架构、模型大小、硬件条件以及模型并行性等。在本篇文章中，我们将使用 Llama-3.1 的一个 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博