专栏名称: Ai fighting

本公众号主要分享自动驾驶感知实战，从算法训练到模型部署。主要致力于3D目标检测，3D目标追踪，多传感器融合，Transform，BEV，OCC，模型量化，模型部署等方向的实战。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

H100 vs. A100 和 4090 vs. A10 实测性能（一）算力篇

Ai fighting · 公众号 · · 2024-08-31 22:34

文章预览

原文：https://zhuanlan.zhihu.com/p/713121901 由于众所周知的原因，某些GPU在某些地区销售是没有合法渠道 & 售后保障的，从奇怪的渠道购买GPU有概率买到翻新货、假货。对于计算用途的GPU，我们通常会关心峰值算力、显存带宽、通信带宽三个指标，如果拿到的货这三个指标实测值和理论值相符咱就基本能安全下车了。这里将分三篇分别说明每个指标怎么测，本文是第一篇：算力篇。想要简单快速又比较准的的测出实际峰值算力，可以使用CUTLASS profiler提供的GEMM算子进行测试。通常认为GEMM是计算受限的算子，且当下大热的Transformer模型负载基本上都是GEMM，故GEMM测得的最优性能可以被当作GPU的实际峰值算力。从github上的CUTLASS仓库（GitHub - NVIDIA/cutlass: CUDA Templates for Linear Algebra Subroutines） https://github.com/NVIDIA/cutlass 克隆源码并且按照文档里的方法编译cutlass_prof ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博