专栏名称: 吃果冻不吐果冻皮
专注于AI工程化(LLM、MLOps、LLMOps、RAG、Agent)落地。
今天看啥  ›  专栏  ›  吃果冻不吐果冻皮

H100/A100/4090/A10 实测性能(算力篇)

吃果冻不吐果冻皮  · 公众号  ·  · 2024-08-16 08:00

文章预览

【点击】 加入大模型技术交流群 原文:https://zhuanlan.zhihu.com/p/713121901 由于众所周知的原因,某些GPU在某些地区销售是没有合法渠道 & 售后保障的,从奇怪的渠道购买GPU有概率买到翻新货、假货。 对于计算用途的GPU,我们通常会关心峰值算力、显存带宽、通信带宽三个指标,如果拿到的货这三个指标实测值和理论值相符咱就基本能安全下车了。 这里将分三篇分别说明每个指标怎么测,本文是第一篇: 算力篇。 想要简单快速又比较准的的测出实际峰值算力,可以使用CUTLASS profiler提供的GEMM算子进行测试。通常认为GEMM是计算受限的算子,且当下大热的Transformer模型,负载基本上都是GEMM,故GEMM测得的最优性能可以被当作GPU的实际峰值算力。从github上的CUTLASS仓库(https://github.com/NVIDIA/cutlass )克隆源码并且按照文档里的方法编译cutlass_profiler程序。使用方 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览