DeepSeek-V3/R1推理效率分析

zartbot · 公众号 · · 2025-03-14 18:59

文章预览

本文由于计算量非常大,步骤也很多难免有错误之处,欢迎大家指正.并且每个计算时使用的函数都已列出,可供大家自行修改. 本文仅代表个人观点, 与任职的机构无关. 每当看到代码里有Low Latency的字眼时, 网党们就激动的不行要去降低静态延迟扩大带宽, 上大规模ScaleUP网络, 但是事实上是否是这样呢? 本文作为第一篇分析一下H800和H20在DeepSeek-R1 EP并行的推理性能峰值, 后续将继续分析B200-NVL72这样的实例, 看看ScaleUP网络是否有优势. TL;DR H800和H20分析结果如下所示, 基本上H800的数据能够和DeepSeek官方数据对齐. Prefill阶段 H800 H20 TPS(Overlap) 52240.1 9377.0 TPS 33741.0 8536.9 Decoding阶段 H800(TP1) H800(TP1) H800(TP1) H20(TP4) H20_3e(TP8) H20_3e(TP8) BatchSize 32.000 64.000 128.000 32.000 32.000 64.000 TPOT(Overlap) 9.858 19.716 39.431 35.367 29.613 49.005 TPOT 17.023 34.045 68.090 42.532 36.778 63.334 TPS(Overlap) 101.442 50.721 25 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博