专栏名称: arXiv每日学术速递

跟踪计算机视觉、人工智能、机器学习、NLP、语音识别、量化金融等热门方向学术信息

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

相关文章推荐

智能涌现 · 2024年，百度最重用的两位女高管｜智涌分析 · 5 小时前

芋道源码 · 新来了个同事，代码命名规范是真优雅呀！代码如诗！！ · 昨天

赛博禅心 · 读屏不靠截图：ChatGPT ... · 3 天前

电池中国 · 【视频】CBIS2024探展合辑之利元亨/安 ... · 3 天前

ShenzhenWeekly · 深圳人专属的「精神派对」来了，限时4天开放 · 5 天前

今天看啥 › 专栏 › arXiv每日学术速递

基于o1-preview解读 Optimized GPTQ INT4 Dequantization Triton Kernel

arXiv每日学术速递 · 公众号 · · 2024-09-17 13:55

文章预览

0x0. 前言在【翻译】在 GPU 上如何加速 GPTQ Triton 反量化kernel 中 PyTorch 官方给出了一系列优化 GPTQ INT4 反量化 Triton Kernels 的方法，如 L2 Cache（Block swizzled)，向量化读取，SplitK优化改善Warp Stalling，这里单独再利用目前最先进的 o1-preview 模型解析下这个Triton代码实现，看一下目前最先进的模型在阅读 Triton kernel 上面的表现。 0x1. 前置知识除了上面的 Blog 之外，我之前学习 Triton MatMul 教程的时候也学习了这里提到的 L2 Cache 优化，并把这些知识也记录到了【BBuf的CUDA笔记】十三，OpenAI Triton 入门笔记一这篇文章中，想深入了解这个Block swizzled是如何影响矩阵乘法可以阅读。在 CUDA-MODE课程笔记第7课: Quantization Cuda vs Triton 这篇 CUDA-MODE 学习笔记中，PyTorch的Core Developer较为全面的讲解了大模型量化的方法以及对比了用CUDA/Triton来开发这些流行的量化kernel的优 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

智能涌现 · 2024年，百度最重用的两位女高管｜智涌分析

5 小时前

智能涌现 · 2024年，百度最重用的两位女高管｜智涌分析

5 小时前

芋道源码 · 新来了个同事，代码命名规范是真优雅呀！代码如诗！！

昨天

赛博禅心 · 读屏不靠截图：ChatGPT 客户端的原理、实现与边界

3 天前

电池中国 · 【视频】CBIS2024探展合辑之利元亨/安迈特科技/高能数造

3 天前

电池中国 · 【视频】CBIS2024探展合辑之利元亨/安迈特科技/高能数造

3 天前

ShenzhenWeekly · 深圳人专属的「精神派对」来了，限时4天开放

5 天前

ShenzhenWeekly · 深圳人专属的「精神派对」来了，限时4天开放

5 天前

家传武功 · 银行股涨幅排行榜：为何选南京而弃宁波？停止持仓组合实盘演示

3 月前

性学研究僧 · 不射正好你多玩一会儿小僧问答 -20240802121315

3 月前

诗词天地 · 这些博物馆的“镇馆之宝”，全都来自中国……

2 月前