文章预览
作者 | Pegessi 编辑 | 极市平台 原文链接: https://zhuanlan.zhihu.com/p/613538649 点击下方 卡片 ,关注“ 自动驾驶Daily ”公众号 戳我-> 领取近15个自动驾驶方向路线 >> 点击进入→ 自动驾驶Daily技术交流群 本文只做学术分享,如有侵权,联系删文 ,自动驾驶课程学习与技术交流群事宜,也欢迎添加小助理微信AIDriver004做进一步咨询 前言 CUDA介绍(from chatGPT) 现在深度学习大行其道,作为深度学习的基础软件设施,学习cuda也是很有意义的。本篇文章主要介绍如何利用CUDA实现一个2D卷积算子,实现过程较为简单,最终的实现效果可以在 较小的尺寸 下取得比cudnn快较大的性能。实测在以下参数配置下可以达到平均1.2倍cudnn的性能(娱乐结果,还与cudnn配置有关,更小更快)。 TIPS: 跳过cudnn初始化的时间,99轮平均时间 const int inC = 6 ; const
………………………………