专栏名称: 江大白
专业有趣的AI内容平台,关注后回复【算法】,获取45家大厂的《人工智能算法岗江湖武林秘籍》
目录
相关文章推荐
今天看啥  ›  专栏  ›  江大白

CUDA模型部署实战,自己写的CUDA矩阵乘法能优化到多快?

江大白  · 公众号  ·  · 2024-10-24 08:00

文章预览

以下文章来源于微信公众号:集智书童 作者:小书童 链接:https://mp.weixin.qq.com/s/d-rTlHhPP3IERU8K1Sk7iw 本文仅用于学术分享,如有侵权,请联系后台作删文处理 导读 CUDA是CV领域模型部署优化的必备。本文基于RTX3090,学习Tensor Core的使用方法。并在文章最后通过实验证明,手写的CUDA矩阵乘法顺利地将fp16的矩阵乘法优化到了cublas的性能,希望本文对读者有所帮助! 1. Introduction 最近研究了一下Nvidia GPU搭载的Tensor Core,开始手写半精度浮点类型(half or fp16)的矩阵乘法算子(c = a * b,其中a、b、c均为fp16类型),并尝试将其优化到cublas的性能水平。 本文源代码参见nicolaswilde/cuda-tensorcore-hgemm (github.com)。 下图是我在RTX3090上测试得到的我自己手写的几个kernel和CUBALS_GEMM_DFALT在M = N = K(256 ~ 16384)下的性能对比,其中加粗蓝色是cublas、加粗绿色是我优化的最终版 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览