文章预览
↑ 点击 蓝字 关注极市平台 作者丨Rainlin https://zhuanlan.zhihu.com/p/3278397099 来源丨自动驾驶之心 编辑丨极市平台 本文只做学术分享,如有侵权,请联系删文 极市导读 本文探讨了在测量GPU CUDA Kernel耗时时可能遇到的问题,例如输入相同但测量结果差异大的原因,并提供了精确测量kernel耗时的方法。文章分析了可能的原因,包括torch.cuda.event测量的时间可能包含了其他过程、GPU缓存的影响,以及GPU频率的变化,并给出了一些建议,如使用nsys工具进行更准确的测量。 >> 加入极市CV技术交流群,走在计算机视觉的最前沿 背景 Rainlin:如何优雅地测量GPU CUDA Kernel耗时?(一)中介绍了常用的测量gpu耗时方法,而实际应用中,还会遇到其他的问题,比如: 为什么同样的输入,测量的耗时存在较大差距? 怎样才能精确的测量kernel耗时? 问题 我们看以下常
………………………………