专栏名称: oldpan博客
老潘的博客,程序员眸中的fantasy life,分享AI技术干货,让大家少走弯路~
今天看啥  ›  专栏  ›  oldpan博客

[vLLM vs TensorRT-LLM] #6. Weight-Only Quantization 仅权重量化的性能比较

oldpan博客  · 公众号  ·  · 2025-02-24 17:36
    

文章预览

来源于 https://blog.squeezebits.com/vllm-vs-tensorrtllm-6-weightonly-quantization-33728 继续比较 vllm 和 trtllm 前言 量化(Quantization) 是一种广泛应用于深度学习模型的压缩技术,可用于减少模型的存储需求并加速推理。对于 LLM(Large Language Models) 来说,量化尤为重要,因为这些模型包含大量参数,计算需求极高。 vLLM 和 TensorRT-LLM 都支持多种量化方法,为用户提供了更快部署 LLM 的可行方案。 在接下来的三篇文章中,我们将探讨 vLLM 和 TensorRT-LLM 支持的量化技术。本篇文章将重点介绍: Weight-Only Quantization 方法。 下一篇文章将讨论 Weight-Activation Quantization ,而最后一篇文章将介绍 KV Cache Quantization 在长上下文场景中的应用。 量化的效果会受到多种因素的影响,例如模型架构、模型大小、硬件条件以及模型并行性等。在本篇文章中,我们将使用 Llama-3.1 的一个 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览