文章预览
blog地址:https://pytorch.org/blog/accelerating-triton/
triton kernel 地址:https://github.com/foundation-model-stack/foundation-model-stack/blob/triton/triton/kernels/gptq/splitk_dequant_gemm.py#L51 加速 GPTQ 的 Triton Dequantization Kernel 太长不看版 利用第一性原理方法,我们展示了一个逐步过程,旨在将当前的Triton GPTQ kernel加速3倍(core GPTQ)和6倍(AutoGPTQ)。例如:在典型的Llama风格推理输入上,将处理时间从275微秒降低到47微秒。我们的目标是提供一个有用的模板,用于加速任何给定的Triton kernel。我们提供了Triton和GPTQ量化及反量化过程的背景信息,展示了合并内存访问对改善共享和全局内存吞吐量的影响,强调了为减少线程束停滞以提高总体吞吐量所做的更改,并概述了将Triton kernel集成到PyTorch代码中的方法。长期来看,我们希望我们的Triton kernel能够超越现有的CUDA原生GPTQ kernel。 图1:在H
………………………………