文章预览
我的课程笔记,欢迎关注:https://github.com/BBuf/how-to-optim-algorithm-in-cuda/tree/master/cuda-mode CUDA-MODE Lecture 15是讲cutlass的cute Layout抽象的,感觉讲的比较差,建议大家直接看reed大佬的cutlass系列博客介绍,接下来会忽略掉这节课的笔记。CUDA-MODE Lecture 16: On Hands profiling是一个关于PyTorch Lighting的工程师根据一个实际的gemma模型微调的程序来进行profile和改进性能的课程,这节课没有Slides更贴近AI Infra工程师的生活,profile工具使用了Nsight System和PyTorch Profiler,对这节课感兴趣的小伙伴可以自行查阅这个课程,由于没有Slides并且讲得很随意所以笔者也不打算记录这节课的笔记。但如果你平时有做Profile的需求,我还是建议看一下这节课。 下面的课程笔记的内容主要来源是 Lecture 14 Triton 实践指南中的 https://github.com/gpu-mode/lectures/blob/main/lecture_014/A_Practitioners_Guide_to_Triton.i
………………………………