今天看啥  ›  专栏  ›  LLM SPACE

大模型日报(6月15~16日 学术篇)

LLM SPACE  · 公众号  ·  · 2024-06-16 19:11
    

文章预览

我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。 欢 迎 大 家 一 起 交 流 ! 学习 0 1 由矩阵乘法边界处理引起的CUDA wmma fragment与原始矩阵元素对应关系探究 本文主要探讨了在 CUDA 编程中利用 WMMA API 进行矩阵乘法时,不同 WMMA shape(如 16x16x16、32x8x16 和 8x32x16)下的 fragment 与原始矩阵元素之间的对应关系。作者指出,对于 Half 类型的矩阵乘法,直接使用现有的 GEMM 模板效率低下,仅达到 CUDA WMMA 性能的四分之一左右。因此,需要对 WMMA 进行特化优化。 文章详细说明了 WMMA 的基础结构,即每个 warp 维护的三类 fragment(matrix_a, matrix_b 和 accumulator),以及它们的存储结构 frag_base 。在具体操作中, load_matrix_sync 和 store_matrix_sync 是 WMMA 中的 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览