今天看啥  ›  专栏  ›  zartbot

谈谈大模型推理KVCache加速和内存池化

zartbot  · 公众号  · AI 科技自媒体  · 2024-07-14 15:02
    

主要观点总结

文章主要讨论了PD(Prefill-Decoding)分离的方法对整个推理基础设施的影响。包括推理系统构建分布式内存池和层次化存储的需求,以及通用CPU算力增强对降低推理成本的作用。文章还分析了PD分离的瓶颈,包括KVCache转移路径、PCIe瓶颈和基础设施现状。同时提供了一些解决方案,包括软件算法、硬件互联和系统角度的考虑。文章还提到了一些实例和参考资料。

关键观点总结

关键观点1: PD分离对推理基础设施的影响

随着通用CPU算力的增强和PD分离的趋势,构建分布式内存池和层次化存储的需求越来越强烈,这有助于降低推理成本。

关键观点2: PD分离的瓶颈

PD分离的瓶颈包括KVCache转移路径、PCIe瓶颈和基础设施现状。其中,KVCache转移路径相对较长,受到PCIe交换机和CPU自身PCIe Lane的限制,以及现有ScaleOut网络互联带宽的限制。

关键观点3: 解决方案

从软件算法、硬件互联和系统角度提供了解决方案。包括优化软件算法降低Prefill到Decoding实例间转发数据的Burst,改进硬件互联以降低KVCache Load的量,以及构建更大规模的内存池和分布式内存对象服务等。


文章预览

本文主要来谈谈PD(Prefill-Decoding)分离的方法对于整个推理基础设施的影响. 从Mooncake的论文以及DeepSeek进一步将用户Context放到SSD上来看, 推理系统构建分布式内存池以及层次化存储的需求越来越强烈, 另一方面随着通用CPU算力的增强, 基本上也达到了L20相等的算力, 例如AMD未来的Turin AI以及Intel的GNR,以及已有的基于ARM N2架构的Yitan 710等,将这些实例用来做Decode将进一步降低推理成本. 1. PD分离推理的瓶颈 1.1 KVCache转移路径 从当前的实现来看, KVCache从Prefill实例导出再到注入到Decoding实例, 整个I/O路径需要经历 ,如下图所示: 整个路径相对较长, 我们再来看看一个标准的8卡GPU服务器的内部连接 在推理过程中, 由于PD集群为异构架构, 训练网络通常是采用同类卡构建的同构集群构建的ScaleOut孤岛, 因此原有的ScaleOut网络中的GPU机尾网卡并没有承载流量, 而只是简单的采 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览