专栏名称: Ai fighting
本公众号主要分享自动驾驶感知实战,从算法训练到模型部署。主要致力于3D目标检测,3D目标追踪,多传感器融合,Transform,BEV,OCC,模型量化,模型部署等方向的实战。
今天看啥  ›  专栏  ›  Ai fighting

大模型量化技术原理:Atom、QuaRot

Ai fighting  · 公众号  ·  · 2024-12-07 07:00
    

文章预览

近年来,随着Transformer、MOE架构的提出,使得深度学习模型轻松突破上万亿规模参数,从而导致模型变得越来越大,因此,我们需要一些大模型压缩技术来降低模型部署的成本,并提升模型的推理性能。模型压缩主要分为如下几类: 剪枝(Pruning) 知识蒸馏(Knowledge Distillation) 量化(Quantization) Atom 背景 LLM 在内容生成、聊天机器人和情感分析等应用中的需求不断增长,给LLM服务提供商带来了显著的挑战。 为了有效利用GPU资源并提高吞吐量,批处理多个请求已成为一种流行的范式;为了进一步加速批处理,LLM量化技术通过减少内存消耗和增加计算能力来实现。现有的量化方案无法充分利用现代GPU的能力,如:4位整数运算,导致性能不是最优。 为了最大化LLM的服务吞吐量,作者提出了一种低比特量化方法Atom,通过使用低比特算子显著提高服务吞吐 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览