Tensor-004 TensorCore编程及优化

zartbot · 公众号 · · 2024-08-10 07:31

文章预览

TensorCore编程相关的代码可以参考, 本文在这些代码的基础上进行整理, Credit属于这些代码的作者 Cuda-Samples [1] 中的cudaTensorCoreGemm 代码知乎:木子知的《Nvidia Tensor Core-CUDA HGEMM优化进阶》 [2] Cutlass v0.1.1 [3] 《DEVELOPING CUDA KERNELS TO PUSH TENSOR CORES TO THE ABSOLUTE LIMIT ON NVIDIA A100》 [4] 本文主要讲述TensorCore的供数优化相关的优化内容, 相关优化方法的测试对比 Kernel GFLOPs/S 相对于cuBLAS的性能 Cublas 90051.0 100% Load From GMEM 6921.4 7.6% Hierarchy Load 49311.8 54.7% + Padding SMEM 53842.7 59.7% + Async Copy 57837.5 64.2% + GMEM->SMEM Doublebuffer 69233.1 76.8% + SMEM->RF DoubleBuffer 70111.5 77.8% + Multistage with Swizzle 91842.1 101.9% 相关测试代码可以访问 github.com/zartbot/tensorecore_gemm [5] 本文目录如下: 0 . Recap GEMM Optimization 1 . TensorCore编程 1.1 从一个直接GMEM加载的反例谈起 1.2 GEMM的分层结构 1.3 Padding缓解Bank冲突 1. ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

宝玉xp · 转：cloudflare worker AI 现在所有的生图模型-20241121164452

昨天

爱可可-爱生活 · [CL]《Does your LLM truly unlearn-20241118053823

4 天前

爱可可-爱生活 · 本文构建了首个大规模结构化播客数据集SPoRC，并通过对该数据集-20241117070156

5 天前

宝玉xp · 问：体验了一下 AI 编程，我发现这个编程能力受限于上下文的限制-20241116152635

6 天前

爱可可-爱生活 · [IR]《Language-Model Prior Overco-20241116061700

6 天前

覃汉研究笔记 · 持有，但不等于追涨

5 月前

智合 · 律师营销秘籍：如何轻松打造品牌，让获客效率倍增？

4 月前

一个梅特涅主义者 · 后续政策方向评估

3 周前