文章预览
CUTLASS GEMM模板中有大量可以调节和设置的模板参数,这些参数的设置会高度影响Kernel性能。这个分享将为大家介绍从2.x到3.x,CUTLASS kernel实现的变化,这些参数的原理和选择的最佳实践。Slides来自BiliBili NVIDIA英伟达频道 上传的《TensorRT-LLM中的 Quantization GEMM(Ampere Mixed GEMM)的 CUTLASS 2.x 实现讲解》视频讲解。这里参考视频并更详细记录了每一页Slides的要点,通过这个视频初步宏观了解了CUTLAS。我将其作为CUDA-MODE的CUTLASS课程的前置学习内容。 这张Slides展示了CUTLASS会话的整体结构,主要包含三个部分: Part I: CUTLASS介绍 CUTLASS 2x和基本GEMM概念 使用CUTLASS 2x创建SOL GEMM的指南 CUTLASS 3x的重要GEMM概念 使用CUTLASS 3x创建SOL GEMM的指南 主讲人: Petrick Liu 主题包括: Part II: CUTLASS 2x中的MixedGEMM TRT-LLM中的量化 使用CUTLASS 2.x的MixedGEMM 权重布局细节 主讲人: Yilin Zhang 主题包括:
………………………………