文章预览
一般而言,机器学习团队理解GPU使用情况的常见度量标准是GPU利用率,通常通过在终端中运行nvidia-smi来查看。许多集成的可观测性工具也将GPU利用率作为其主要性能指标进行跟踪。 然而,AI Infra团队 Trainy在实操中发现 ,GPU利用率并不总是理解GPU性能的最佳指标。实际上,在不做任何计算的情况下读取/写入内存,就可达到100%的GPU利用率! 本文作者Roanak Baviskar在 本文中讲述了他们 是如何发现这一点的,以及在这一过程中的其他发现。 (本文由OneFlow编译发布,转载请联系授权。来源: https://trainy.ai/blog/gpu-utilization-misleading ) 作者| Roanak Baviskar OneFlow编译 题图由 SiliconCloud 平台生成 在Trainy,我们致力于管理GPU集群的基础设施,因此花费了大量时间思考这些问题。去年,我们与一家基础模型公司合作,以扩展和提高他们LLM训练的效率。我们遵循了几
………………………………