专栏名称: 吃果冻不吐果冻皮
专注于AI工程化(LLM、MLOps、LLMOps、RAG、Agent)落地。
今天看啥  ›  专栏  ›  吃果冻不吐果冻皮

Hopper 架构特性:Tensor Memory Access(TMA)

吃果冻不吐果冻皮  · 公众号  ·  · 2024-08-13 11:45

文章预览

【点击】 加入大模型技术交流群 原文:https://zhuanlan.zhihu.com/p/709750258 上一篇 [Hopper 架构特性:Distributed Shared Memory] 介绍了 Hooper 架构带来两个重点的新特性: Distributed Shared Memory 和 TMA ,并重点介绍了 Distributed Shared Memory 的使用。本篇继续介绍 Hooper 架构带来的第二个新特性: Tensor Memory Access (TMA)。 在介绍 TMA 之前,先介绍下 Ampere 架构带来的一个新特性——异步拷贝。 1. 异步拷贝 如上篇[ Hopper 架构特性:Distributed Shared Memory ]提到,在 GPU 编程中,Kernel 的设计往往是以 Thread Block 这个粒度展开的。在 Thread Block 这个层次设计 Kernel 时,可以将重复使用的 Global Memory 拷贝到 Shared Memory,然后执行计算,计算结果在 Shared Memory上,再把结果写回到 Global Memory 上,利用 Shared Memory 访问延迟低的特点提升计算过程中的访存速度。所以在这种 Kernel 中,存在着频 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览