文章预览
深入探讨 Hopper TMA 单元在 FP8 GEMM 运算中的应用 PyTorch博客资料:https://pytorch.org/blog/hopper-tma-unit/ PyTorch实现和使用Demo:https://github.com/pytorch-labs/applied-ai/blob/main/kernels/triton/inference/fp8/tma_gemm.py 在本文最后也添加了这个代码的解释 摘要 Hopper(H100)GPU架构被称为"第一款真正的异步GPU",它包含了一个新的、完全异步的硬件复制引擎,用于在全局内存和共享内存之间进行大规模数据移动,这个引擎被称为张量内存加速器(TMA)。虽然CUTLASS通过其异步流水线范式内置了对TMA的支持(https://github.com/NVIDIA/cutlass/blob/56b46e2d13875b46b8f6a03f9f5ac91e2bfdc01a/include/cute/arch/copy_sm90_tma.hpp),但Triton则通过一个实验性API (https://github.com/triton-lang/triton/blob/538556a66ee49630e1cb0b239f93e63b968b2478/python/triton/tools/experimental_descriptor.py#L25) 来提供TMA支持。 在这篇文章中,我们将深入探讨TMA的工作原
………………………………