专栏名称: GiantPandaLLM
专注于机器学习、深度学习、计算机视觉、图像处理等多个方向技术分享。团队由一群热爱技术且热衷于分享的小伙伴组成。我们坚持原创,每天一到两篇原创技术分享。希望在传播知识、分享知识的同时能够启发你,大家一起共同进步(・ω<)☆
目录
相关文章推荐
GiantPandaLLM  ·  SGLang ... ·  2 天前  
今天看啥  ›  专栏  ›  GiantPandaLLM

一起聊聊Nvidia Hopper新特性之WGMMA

GiantPandaLLM  · 公众号  · 3D  · 2025-04-18 12:00
    

文章预览

本文翻译自外网资料,译者:企鹅🐧 原文链接见文末,公众号排版来自机智流公众号 上次为大家带来了 Hopper上的新特性之TMA ,这次我们来一起看看Hopper上的新矩阵乘法操作WGMMA。 引子 如果一个 CUDA 教程没有关于通用矩阵乘法(GEMM)的章节,那么就是不完整的。可以说,GEMM 是现代 GPU 上最重要的例程,它在神经网络、大型语言模型和许多图形应用程序中构成了大部分计算。尽管 GEMM 无处不在,但它以难以有效实现而闻名。 这个由三部分组成的教程系列旨在让读者全面了解如何使用 CUTLASS 库在 NVIDIA Hopper GPU 上编写高效的 GEMM 内核。 [第 1 部分, 即本部分 ] 讨论了 warp 组矩阵乘法累加(WGMMA)指令。这些是针对基于 Hopper 架构的 NVIDIA GPU 的 Tensor Core 的原始指令。 [第 2 部分] 将讨论高效 GEMM 内核的整体设计,包括 CUTLASS 内核中使用的高级技术,如 wa ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览