文章预览
1. CUTLASS计算流程抽象 1.1 矩阵分块乘法 在前面一章我们介绍了如何使用TensorCore进行矩阵计算, 通常我们需要按照如下流程逐步分块从GMEM加载矩阵块到SMEM再到寄存器文件,然后进行矩阵乘法计算. 同时为了兼顾访存效率, 还需要在较新的GPU(Ampere/Hopper)上实现多级流水线的异步内存加载. 1.2 Epilogue 前文的一些实现中仅有 的矩阵乘法, 并没有考虑到 , 而这些计算需要有一个后续的步骤进行修正, 如下所示 另一方面有一些矩阵乘法完成后基于单个元素的操作算子可以融合在一起,例如激活函数/数据类型转换等 将这些步骤拼凑在一起构成完成的计算流程 即在完成GMEM后, 还有一段代码在Cuda Core上执行Epilogue代码. 1.3 计算流抽象 但是我们注意到随着TensorCore支持的数据类型越来越多,各种混合精度的乘法以及不同的矩阵大小, 然后矩阵的不同Layout以及深度学习模型中
………………………………