专栏名称: GiantPandaCV
专注于机器学习、深度学习、计算机视觉、图像处理等多个方向技术分享。团队由一群热爱技术且热衷于分享的小伙伴组成。我们坚持原创,每天一到两篇原创技术分享。希望在传播知识、分享知识的同时能够启发你,大家一起共同进步(・ω<)☆
今天看啥  ›  专栏  ›  GiantPandaCV

【翻译】深入探讨 Hopper TMA 单元在 FP8 GEMM 运算中的应用(文末送3本大模型书)

GiantPandaCV  · 公众号  · 3D  · 2024-09-20 22:45

文章预览

深入探讨 Hopper TMA 单元在 FP8 GEMM 运算中的应用 PyTorch博客资料:https://pytorch.org/blog/hopper-tma-unit/ PyTorch实现和使用Demo:https://github.com/pytorch-labs/applied-ai/blob/main/kernels/triton/inference/fp8/tma_gemm.py 在本文最后也添加了这个代码的解释 摘要 Hopper(H100)GPU架构被称为"第一款真正的异步GPU",它包含了一个新的、完全异步的硬件复制引擎,用于在全局内存和共享内存之间进行大规模数据移动,这个引擎被称为张量内存加速器(TMA)。虽然CUTLASS通过其异步流水线范式内置了对TMA的支持(https://github.com/NVIDIA/cutlass/blob/56b46e2d13875b46b8f6a03f9f5ac91e2bfdc01a/include/cute/arch/copy_sm90_tma.hpp),但Triton则通过一个实验性API (https://github.com/triton-lang/triton/blob/538556a66ee49630e1cb0b239f93e63b968b2478/python/triton/tools/experimental_descriptor.py#L25) 来提供TMA支持。 在这篇文章中,我们将深入探讨TMA的工作原 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览