专栏名称: GiantPandaCV

专注于机器学习、深度学习、计算机视觉、图像处理等多个方向技术分享。团队由一群热爱技术且热衷于分享的小伙伴组成。我们坚持原创，每天一到两篇原创技术分享。希望在传播知识、分享知识的同时能够启发你，大家一起共同进步(･ω<)☆

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

基于o1-preview解读 Optimized GPTQ INT4 Dequantization Triton Kernel

GiantPandaCV · 公众号 · 3D · 2024-09-16 22:00

文章预览

0x0. 前言在【翻译】在 GPU 上如何加速 GPTQ Triton 反量化kernel 中 PyTorch 官方给出了一系列优化 GPTQ INT4 反量化 Triton Kernels 的方法，如 L2 Cache（Block swizzled)，向量化读取，SplitK优化改善Warp Stalling，这里单独再利用目前最先进的 o1-preview 模型解析下这个Triton代码实现，看一下目前最先进的模型在阅读 Triton kernel 上面的表现。 0x1. 前置知识除了上面的 Blog 之外，我之前学习 Triton MatMul 教程的时候也学习了这里提到的 L2 Cache 优化，并把这些知识也记录到了【BBuf的CUDA笔记】十三，OpenAI Triton 入门笔记一这篇文章中，想深入了解这个Block swizzled是如何影响矩阵乘法可以阅读。在 CUDA-MODE课程笔记第7课: Quantization Cuda vs Triton 这篇 CUDA-MODE 学习笔记中，PyTorch的Core Developer较为全面的讲解了大模型量化的方法以及对比了用CUDA/Triton来开发这些流行的量化kernel的优 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博