文章预览
本文主要来谈谈PD(Prefill-Decoding)分离的方法对于整个推理基础设施的影响. 从Mooncake的论文以及DeepSeek进一步将用户Context放到SSD上来看, 推理系统构建分布式内存池以及层次化存储的需求越来越强烈, 另一方面随着通用CPU算力的增强, 基本上也达到了L20相等的算力, 例如AMD未来的Turin AI以及Intel的GNR,以及已有的基于ARM N2架构的Yitan 710等,将这些实例用来做Decode将进一步降低推理成本. 1. PD分离推理的瓶颈 1.1 KVCache转移路径 从当前的实现来看, KVCache从Prefill实例导出再到注入到Decoding实例, 整个I/O路径需要经历 ,如下图所示: 整个路径相对较长, 我们再来看看一个标准的8卡GPU服务器的内部连接 在推理过程中, 由于PD集群为异构架构, 训练网络通常是采用同类卡构建的同构集群构建的ScaleOut孤岛, 因此原有的ScaleOut网络中的GPU机尾网卡并没有承载流量, 而只是简单的采
………………………………