文章预览
0x0. 前言 在 【翻译】在 GPU 上如何加速 GPTQ Triton 反量化kernel 中 PyTorch 官方给出了一系列优化 GPTQ INT4 反量化 Triton Kernels 的方法,如 L2 Cache(Block swizzled),向量化读取,SplitK优化改善Warp Stalling,这里单独再利用目前最先进的 o1-preview 模型解析下这个Triton代码实现,看一下目前最先进的模型在阅读 Triton kernel 上面的表现。 0x1. 前置知识 除了上面的 Blog 之外,我之前学习 Triton MatMul 教程的时候也学习了这里提到的 L2 Cache 优化,并把这些知识也记录到了 【BBuf的CUDA笔记】十三,OpenAI Triton 入门笔记一 这篇文章中,想深入了解这个Block swizzled是如何影响矩阵乘法可以阅读。 在 CUDA-MODE课程笔记 第7课: Quantization Cuda vs Triton 这篇 CUDA-MODE 学习笔记中,PyTorch的Core Developer较为全面的讲解了大模型量化的方法以及对比了用CUDA/Triton来开发这些流行的量化kernel的优
………………………………