专栏名称: GiantPandaCV
专注于机器学习、深度学习、计算机视觉、图像处理等多个方向技术分享。团队由一群热爱技术且热衷于分享的小伙伴组成。我们坚持原创,每天一到两篇原创技术分享。希望在传播知识、分享知识的同时能够启发你,大家一起共同进步(・ω<)☆
目录
相关文章推荐
GiantPandaCV  ·  SGLang 后端原文解析 ·  4 天前  
今天看啥  ›  专栏  ›  GiantPandaCV

基于o1-preview解读 Optimized GPTQ INT4 Dequantization Triton Kernel

GiantPandaCV  · 公众号  · 3D  · 2024-09-16 22:00

文章预览

0x0. 前言 在 【翻译】在 GPU 上如何加速 GPTQ Triton 反量化kernel 中 PyTorch 官方给出了一系列优化 GPTQ INT4 反量化 Triton Kernels 的方法,如 L2 Cache(Block swizzled),向量化读取,SplitK优化改善Warp Stalling,这里单独再利用目前最先进的 o1-preview 模型解析下这个Triton代码实现,看一下目前最先进的模型在阅读 Triton kernel 上面的表现。 0x1. 前置知识 除了上面的 Blog 之外,我之前学习 Triton MatMul 教程的时候也学习了这里提到的 L2 Cache 优化,并把这些知识也记录到了 【BBuf的CUDA笔记】十三,OpenAI Triton 入门笔记一 这篇文章中,想深入了解这个Block swizzled是如何影响矩阵乘法可以阅读。 在 CUDA-MODE课程笔记 第7课: Quantization Cuda vs Triton 这篇 CUDA-MODE 学习笔记中,PyTorch的Core Developer较为全面的讲解了大模型量化的方法以及对比了用CUDA/Triton来开发这些流行的量化kernel的优 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览