文章预览
以下文章来源于微信公众号:集智书童 作者:小书童 链接:https://mp.weixin.qq.com/s/d-rTlHhPP3IERU8K1Sk7iw 本文仅用于学术分享,如有侵权,请联系后台作删文处理 导读 CUDA是CV领域模型部署优化的必备。本文基于RTX3090,学习Tensor Core的使用方法。并在文章最后通过实验证明,手写的CUDA矩阵乘法顺利地将fp16的矩阵乘法优化到了cublas的性能,希望本文对读者有所帮助! 1. Introduction 最近研究了一下Nvidia GPU搭载的Tensor Core,开始手写半精度浮点类型(half or fp16)的矩阵乘法算子(c = a * b,其中a、b、c均为fp16类型),并尝试将其优化到cublas的性能水平。 本文源代码参见nicolaswilde/cuda-tensorcore-hgemm (github.com)。 下图是我在RTX3090上测试得到的我自己手写的几个kernel和CUBALS_GEMM_DFALT在M = N = K(256 ~ 16384)下的性能对比,其中加粗蓝色是cublas、加粗绿色是我优化的最终版
………………………………