专栏名称: GiantPandaCV
专注于机器学习、深度学习、计算机视觉、图像处理等多个方向技术分享。团队由一群热爱技术且热衷于分享的小伙伴组成。我们坚持原创,每天一到两篇原创技术分享。希望在传播知识、分享知识的同时能够启发你,大家一起共同进步(・ω<)☆
目录
相关文章推荐
今天看啥  ›  专栏  ›  GiantPandaCV

【翻译】在 GPU 上如何加速 GPTQ Triton 反量化kernel

GiantPandaCV  · 公众号  · 3D  · 2024-09-15 22:46
    

文章预览

blog地址:https://pytorch.org/blog/accelerating-triton/ triton kernel 地址:https://github.com/foundation-model-stack/foundation-model-stack/blob/triton/triton/kernels/gptq/splitk_dequant_gemm.py#L51 加速 GPTQ 的 Triton Dequantization Kernel 太长不看版 利用第一性原理方法,我们展示了一个逐步过程,旨在将当前的Triton GPTQ kernel加速3倍(core GPTQ)和6倍(AutoGPTQ)。例如:在典型的Llama风格推理输入上,将处理时间从275微秒降低到47微秒。我们的目标是提供一个有用的模板,用于加速任何给定的Triton kernel。我们提供了Triton和GPTQ量化及反量化过程的背景信息,展示了合并内存访问对改善共享和全局内存吞吐量的影响,强调了为减少线程束停滞以提高总体吞吐量所做的更改,并概述了将Triton kernel集成到PyTorch代码中的方法。长期来看,我们希望我们的Triton kernel能够超越现有的CUDA原生GPTQ kernel。 图1:在H ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览