专栏名称: 芯师爷
最及时且有深度的半导体新媒体。每日解读半导体科技最新资讯、发展趋势、技术前沿信息,分享产业研究报告,并打造中国最大的半导体社群与生态圈,欢迎加入半导体专业人士的圈子!旗下媒体:今日芯闻、全球物联网观察、机器人文明。
今天看啥  ›  专栏  ›  芯师爷

GPU利用率背后的性能真相

芯师爷  · 公众号  ·  · 2024-09-02 17:36

文章预览

本文转载自 | OneFlow 作者 | Roanak Baviskar 一般而言,机器学习团队理解GPU使用情况的常见度量标准是GPU利用率,通常通过在终端中运行nvidia-smi来查看。许多集成的可观测性工具也将GPU利用率作为其主要性能指标进行跟踪。 然而,AI Infra团队Trainy在实操中发现 ,GPU利用率并不总是理解GPU性能的最佳指标。实际上,在不做任何计算的情况下读取/写入内存,就可达到100%的GPU利用率! 本文作者Roanak Baviskar在 本文中讲述了他们 是如何发现这一点的,以及在这一过程中的其他发现。 (本文由OneFlow编译发布,转载请联系授权。来源:https://trainy.ai/blog/gpu-utilization-misleading) 作者| Roanak Baviskar OneFlow编译 在Trainy,我们致力于管理GPU集群的基础设施,因此花费了大量时间思考这些问题。去年,我们与一家基础模型公司合作,以扩展和提高他们LLM训练的效率。我 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览