文章预览
【点击】 加入大模型技术交流群 原文:https://zhuanlan.zhihu.com/p/709750258 上一篇 [Hopper 架构特性:Distributed Shared Memory] 介绍了 Hooper 架构带来两个重点的新特性: Distributed Shared Memory 和 TMA ,并重点介绍了 Distributed Shared Memory 的使用。本篇继续介绍 Hooper 架构带来的第二个新特性: Tensor Memory Access (TMA)。 在介绍 TMA 之前,先介绍下 Ampere 架构带来的一个新特性——异步拷贝。 1. 异步拷贝 如上篇[ Hopper 架构特性:Distributed Shared Memory ]提到,在 GPU 编程中,Kernel 的设计往往是以 Thread Block 这个粒度展开的。在 Thread Block 这个层次设计 Kernel 时,可以将重复使用的 Global Memory 拷贝到 Shared Memory,然后执行计算,计算结果在 Shared Memory上,再把结果写回到 Global Memory 上,利用 Shared Memory 访问延迟低的特点提升计算过程中的访存速度。所以在这种 Kernel 中,存在着频
………………………………