文章预览
本文翻译自外网资料,译者:企鹅🐧 原文链接见文末,公众号排版来自机智流公众号 上次为大家带来了 Hopper上的新特性之TMA ,这次我们来一起看看Hopper上的新矩阵乘法操作WGMMA。 引子 如果一个 CUDA 教程没有关于通用矩阵乘法(GEMM)的章节,那么就是不完整的。可以说,GEMM 是现代 GPU 上最重要的例程,它在神经网络、大型语言模型和许多图形应用程序中构成了大部分计算。尽管 GEMM 无处不在,但它以难以有效实现而闻名。 这个由三部分组成的教程系列旨在让读者全面了解如何使用 CUTLASS 库在 NVIDIA Hopper GPU 上编写高效的 GEMM 内核。 [第 1 部分, 即本部分 ] 讨论了 warp 组矩阵乘法累加(WGMMA)指令。这些是针对基于 Hopper 架构的 NVIDIA GPU 的 Tensor Core 的原始指令。 [第 2 部分] 将讨论高效 GEMM 内核的整体设计,包括 CUTLASS 内核中使用的高级技术,如 wa
………………………………