今天看啥  ›  专栏  ›  吃果冻不吐果冻皮

Hopper 架构特性:Tensor Memory Access(TMA)

吃果冻不吐果冻皮  · 公众号  · 硬件 科技媒体  · 2024-08-13 11:45
    

主要观点总结

本文介绍了 Hopper 架构的 Tensor Memory Access (TMA) 特性,并详细描述了其工作原理和优势。TMA 是对异步拷贝的增强,通过 CUDA 提供的 CUtensorMap 结构,可以在 Host 端预先计算好不同 Thread Block 对应的 Global Memory 的不同段的首地址,从而避免 Kernel 内部实时计算地址,实现更高效的异步拷贝。TMA 支持从一维度到五维度的显存块拷贝,包括从 Global Memory 到 Shared Memory 的拷贝以及从 Shared Memory 到 Global Memory 的拷贝。在 CUDA C++ 最佳实践指南中,异步拷贝在所有场景下通常比同步拷贝表现出更高的性能,而 TMA 作为异步拷贝的加强版,将进一步提高矩阵乘等操作的读写 Shared Memory 效率。

关键观点总结

关键观点1: TMA 特性介绍

TMA 是 Hopper 架构的一个新特性,用于优化异步拷贝,支持从一维度到五维度的显存块拷贝,并提供了 CUtensorMap 结构,可以在 Host 端预先计算好不同 Thread Block 对应的 Global Memory 的不同段的首地址,从而避免 Kernel 内部实时计算地址。

关键观点2: TMA 工作原理

TMA 通过 CUDA 提供的 CUtensorMap 结构,在 Host 端计算好不同 Thread Block 对应的 Global Memory 的不同段的首地址,并传递给 Kernel 内部,实现更高效的异步拷贝。

关键观点3: TMA 应用场景

TMA 在矩阵乘等操作中可以有效提高读写 Shared Memory 的效率,并在 CUDA C++ 最佳实践指南中,异步拷贝在所有场景下通常比同步拷贝表现出更高的性能。

关键观点4: TMA 使用方式

TMA 的使用包括创建 CUtensorMap 结构,并在 Kernel 内部使用特定的接口进行异步拷贝,包括从一维度到五维度的显存块拷贝。


免责声明

免责声明:本文内容摘要由平台算法生成,仅为信息导航参考,不代表原文立场或观点。 原文内容版权归原作者所有,如您为原作者并希望删除该摘要或链接,请通过 【版权申诉通道】联系我们处理。

原文地址:访问原文地址
总结与预览地址:访问总结与预览
推荐产品:   推荐产品
文章地址: 访问文章快照