主要观点总结
文章介绍了DeepSeek官方的最新开源项目DeepSeek-V3/R1推理系统,包括其优化目标、主要技术和策略以及官方公布的一些统计数据。DeepSeek通过使用大规模跨节点专家并行(ExpertParallelism/EP)来提高吞吐量和降低延迟。文章还详细解释了如何通过计算通信重叠和负载均衡等技术来优化系统性能,并提供了线上系统的实际统计数据。最后,文章提到了DeepSeekV3和R1推理服务的成本利润情况以及参与评选报名的相关信息。
关键观点总结
关键观点1: DeepSeek-V3/R1推理系统的优化目标是提高吞吐量和降低延迟。
通过使用大规模跨节点专家并行(ExpertParallelism/EP)来增加batch size,从而提高GPU矩阵乘法的效率,并降低延迟。
关键观点2: DeepSeek采用多机多卡间的专家并行策略。
这种策略包括Prefill和Decode两个阶段,通过计算通信重叠来掩盖通信开销,提高整体吞吐。同时,不同阶段采用双batch重叠和流水线的方式实现计算和通信的重叠。
关键观点3: 负载均衡在DeepSeek-V3/R1推理系统中至关重要。
由于采用了大规模的并行,如果某个GPU的计算或通信负载过重,将成为性能瓶颈。因此,需要使用负载均衡技术为每个GPU分配均衡的计算负载和通信负载。
关键观点4: DeepSeekV3和R1的所有服务使用H800 GPU,并采用了与训练和一致的精度和格式。
这最大程度地保证了服务效果。
关键观点5: DeepSeekV3和R1推理服务的成本利润情况。
根据官方统计数据,假定GPU租赁成本为2美金/小时,总成本为每天87,072美金。在24小时统计时段内,如果所有tokens都按照DeepSeek R1的定价计算,理论上一天的总收入为562,027美金,成本利润率为545%。
文章预览
鱼羊 编辑整理 量子位 | 公众号 QbitAI 五连开源后,DeepSeek还有One More Thing! 就在刚刚,DeepSeek官方亲自揭秘了 DeepSeek-V3/R1推理系统 。 重点包括,优化吞吐量和延迟的方法: 跨节点EP驱动的批量扩展 计算与通信重叠 负载均衡 还公布了DeepSeek的在线服务数据统计: 每个H800节点每秒有73.7k/14.8k个输入/输出token 成本利润率545% 更多细节,一起来看官方原文↓ 更大的吞吐,更低的延迟 DeepSeek-V3/R1推理系统的优化目标是:更大的吞吐,更低的延迟。 为了实现这两个目标,我们的方案是使用大规模跨节点专家并行(ExpertParallelism/EP)。 首先EP使得batch size大大增加,从而提高GPU矩阵乘法的效率,提高吞吐。其次EP使得专家分散在不同的GPU上,每个GPU只需要计算很少的专家(因此更少的访存需求),从而降低延迟。 但EP同时也增加了系统的复杂性。复杂性主要体
………………………………