专栏名称: GiantPandaLLM
专注于机器学习、深度学习、计算机视觉、图像处理等多个方向技术分享。团队由一群热爱技术且热衷于分享的小伙伴组成。我们坚持原创,每天一到两篇原创技术分享。希望在传播知识、分享知识的同时能够启发你,大家一起共同进步(・ω<)☆
目录
相关文章推荐
GiantPandaLLM  ·  DeepSeek V3/R1 ... ·  3 天前  
今天看啥  ›  专栏  ›  GiantPandaLLM

DeepSeek V3/R1 推理效率分析: 满血版逆向工程分解

GiantPandaLLM  · 公众号  · 3D  · 2025-03-23 11:24
    

文章预览

作者:Han Shen, 关注 AI Infra 各种杂七杂八 原文: https://zhuanlan.zhihu.com/p/2984105082         1. 前言 之前的一些“ 不负责任”的定性估计 意外地受到了挺多同学的关注,很多同学在评论区也提出了相关的疑问。尽管从“估计上限”这个目标来说,上次的分析完成了它的使命(避免了一些天方夜谭的数字上限,变成打工人的索命KPI),但是对于已经放出来timeline的DeepSeek R1性能估计来说还是太糙了。方法论上存在以下几个问题: a) 上界可达性: 联合考虑计算和通信两者,在不开启MTP的情况下,R1的 EP256 H800 FP8单卡吞吐的上限在3300(combine BF16)-5000(combine FP8) tokens/s,H20 的上限在1600 tokens/s 左右。 记单卡吞吐为 T ,之前用了一个naive 的吞吐估计方法——   。尽管这样取出来的最小值一定是最终吞吐的上界,但不一定是一个“可达上界”:   是一个相对紧 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览