专栏名称: GiantPandaCV
专注于机器学习、深度学习、计算机视觉、图像处理等多个方向技术分享。团队由一群热爱技术且热衷于分享的小伙伴组成。我们坚持原创,每天一到两篇原创技术分享。希望在传播知识、分享知识的同时能够启发你,大家一起共同进步(・ω<)☆
目录
相关文章推荐
今天看啥  ›  专栏  ›  GiantPandaCV

如何正确理解NVIDIA GPU利用率的概念

GiantPandaCV  · 公众号  · 3D  · 2024-12-05 19:56
    

主要观点总结

这篇文章主要探讨了NVIDIA GPU的'利用率'指标可能产生的误导,并深入探讨了这个问题的本质。文章指出,nvidia-smi等工具报告的GPU性能指标可能并不能准确反映GPU的实际使用情况,特别是对于理解GPU的饱和度和实际计算能力方面。文章通过探索NVIDIA开发者论坛上的例子和官方文档,解释了GPU利用率的定义和计算方式,并指出其与常规理解的不同之处。

关键观点总结

关键观点1: NVIDIA GPU的'利用率'是一个容易误导的术语。

文章指出,'利用率'是指设备在过去采样周期内被使用的时间比例,而不考虑在此期间使用了多少流式多处理器(SM)。这与常规理解的利用率不同,常规理解的利用率是指正在使用的GPU处理器的比例。

关键观点2: nvidia-smi报告的'GPU利用率'可能并不代表GPU的饱和程度。

文章通过搜索代码和官方文档,揭示了nvidia-smi报告的'GPU利用率'仅仅是表示设备被使用的频率,而不反映被利用的容量或饱和度。因此,对于实际部署的GPU应用程序,应考虑使用基于DCGM的指标来衡量GPU的饱和程度。

关键观点3: 文章建议优先考虑饱和度指标来评估GPU性能。

文章指出,关注饱和度指标(如FP64/FP32/FP16激活、张量核心激活百分比、NVLINK带宽、GPU内存带宽百分比等)对于评估GPU的实际性能是有益的。这些指标能更准确地反映GPU的工作负载和计算能力。


文章预览

博客原地址:https://arthurchiao.art/blog/understanding-gpu-performance/ 这里做了翻译。通过 nvidia-smi 等工具报告的 GPU 性能指标可能会产生误导。本文将深入探讨这个问题的本质,以提供更深入的理解。 1 NVIDIA GPU util :一个令人困惑的现象 即使只有一个任务在 GPU 的一小部分上运行,由 nvidia-smi 或其他基于 nvml 的工具报告的 "GPU util" 指标也可能显示设备被完全占用,这对用户来说相当令人困惑。 为了更清楚地理解这一点,让我们看看 NVIDIA 开发者论坛上的一个例子(https://forums.developer.nvidia.com/t/some-questions-on-gpu-utilization/191025): __global__  void   simple_kernel ()   {      while  ( true ) {} } int   main ()   {     simple_kernel < < < 1 ,  1 >>>();     cudaDeviceSynchronize(); } 这段代码会在单个流式多处理器(SM)上启动一个指定的内核(线程)。根据传统理解,GPU 的"利用率"应该按 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览