专栏名称: 吃果冻不吐果冻皮

专注于AI工程化（LLM、MLOps、LLMOps、RAG、Agent）落地。

我也要提交微信公众号

今天看啥

公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词RSS订阅方法

知网期刊RSS订阅方法

即刻RSS订阅方法

Hopper 架构特性：Tensor Memory Access（TMA）

吃果冻不吐果冻皮 · 公众号 · 硬件科技媒体 · 2024-08-13 11:45

主要观点总结

本文介绍了 Hopper 架构的 Tensor Memory Access (TMA) 特性，并详细描述了其工作原理和优势。TMA 是对异步拷贝的增强，通过 CUDA 提供的 CUtensorMap 结构，可以在 Host 端预先计算好不同 Thread Block 对应的 Global Memory 的不同段的首地址，从而避免 Kernel 内部实时计算地址，实现更高效的异步拷贝。TMA 支持从一维度到五维度的显存块拷贝，包括从 Global Memory 到 Shared Memory 的拷贝以及从 Shared Memory 到 Global Memory 的拷贝。在 CUDA C++ 最佳实践指南中，异步拷贝在所有场景下通常比同步拷贝表现出更高的性能，而 TMA 作为异步拷贝的加强版，将进一步提高矩阵乘等操作的读写 Shared Memory 效率。

关键观点总结

关键观点1: TMA 特性介绍

TMA 是 Hopper 架构的一个新特性，用于优化异步拷贝，支持从一维度到五维度的显存块拷贝，并提供了 CUtensorMap 结构，可以在 Host 端预先计算好不同 Thread Block 对应的 Global Memory 的不同段的首地址，从而避免 Kernel 内部实时计算地址。

关键观点2: TMA 工作原理

TMA 通过 CUDA 提供的 CUtensorMap 结构，在 Host 端计算好不同 Thread Block 对应的 Global Memory 的不同段的首地址，并传递给 Kernel 内部，实现更高效的异步拷贝。

关键观点3: TMA 应用场景

TMA 在矩阵乘等操作中可以有效提高读写 Shared Memory 的效率，并在 CUDA C++ 最佳实践指南中，异步拷贝在所有场景下通常比同步拷贝表现出更高的性能。

关键观点4: TMA 使用方式

TMA 的使用包括创建 CUtensorMap 结构，并在 Kernel 内部使用特定的接口进行异步拷贝，包括从一维度到五维度的显存块拷贝。

免责声明

免责声明：本文内容摘要由平台算法生成，仅为信息导航参考，不代表原文立场或观点。原文内容版权归原作者所有，如您为原作者并希望删除该摘要或链接，请通过【版权申诉通道】联系我们处理。

原文地址：访问原文地址
总结与预览地址：访问总结与预览
推荐产品: 推荐产品
文章地址：访问文章快照

分享到微博

推荐文章

新浪科技 · 【#大麦回应破盾是否有效##大麦否认存在盾号#】近两年，在小红书-20250701091652

昨天

新浪科技 · 【#黄子韬公布朵薇上线首月成绩单# ：总GMV超8000万，在线-20250629200121

2 天前

数码评价 · ThinkBook新本登场，配上RTX5050，115W满功耗，补贴可减1700元

2 天前

新浪科技 · 【#当二次元遇上乡村大集#】#美好生活博览会# 没有“次元壁”，-20250629141911

2 天前

化工365 · 各种阀门的结构，种类和工作原理！

2 天前

杭州正策信息科技有限公司 · 【余杭区】关于转拨2024年余杭区省级个人专利相关资助的通知

1 年前

云南网 · 75个镜头看云南丨外国友人玩不够，这就很云南！

11 月前

第一财经资讯 · “猛牛疾行”华尔街措手不及！日韩股市遭抛售，中国资产被抢筹

9 月前

南都鉴定评测实验室 · 许翠花“甲醛猫砂”风波背后：高爷家自称产品标识符合相关规定，自媒体被质疑不正当竞争

8 月前

潇湘晨报 · 琼瑶巨额遗产曝光

6 月前