专栏名称: GiantPandaCV
专注于机器学习、深度学习、计算机视觉、图像处理等多个方向技术分享。团队由一群热爱技术且热衷于分享的小伙伴组成。我们坚持原创,每天一到两篇原创技术分享。希望在传播知识、分享知识的同时能够启发你,大家一起共同进步(・ω<)☆
目录
相关文章推荐
今天看啥  ›  专栏  ›  GiantPandaCV

CUTLASS 2.x & CUTLASS 3.x Intro 学习笔记

GiantPandaCV  · 公众号  · 3D  · 2024-07-23 20:07

文章预览

CUTLASS GEMM模板中有大量可以调节和设置的模板参数,这些参数的设置会高度影响Kernel性能。这个分享将为大家介绍从2.x到3.x,CUTLASS kernel实现的变化,这些参数的原理和选择的最佳实践。Slides来自BiliBili NVIDIA英伟达频道 上传的《TensorRT-LLM中的 Quantization GEMM(Ampere Mixed GEMM)的 CUTLASS 2.x 实现讲解》视频讲解。这里参考视频并更详细记录了每一页Slides的要点,通过这个视频初步宏观了解了CUTLAS。我将其作为CUDA-MODE的CUTLASS课程的前置学习内容。 这张Slides展示了CUTLASS会话的整体结构,主要包含三个部分: Part I: CUTLASS介绍 CUTLASS 2x和基本GEMM概念 使用CUTLASS 2x创建SOL GEMM的指南 CUTLASS 3x的重要GEMM概念 使用CUTLASS 3x创建SOL GEMM的指南 主讲人: Petrick Liu 主题包括: Part II: CUTLASS 2x中的MixedGEMM TRT-LLM中的量化 使用CUTLASS 2.x的MixedGEMM 权重布局细节 主讲人: Yilin Zhang 主题包括: ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览