文章预览
↑ 点击 蓝字 关注极市平台 作者丨猛猿 来源丨大猿搬砖简记 编辑丨极市平台 极市导读 文章通过实验和数学建模,探讨了为什么分离式架构(prefill和decode阶段分开处理)比合并式架构更优,以及在分离架构下如何优化prefill和decode阶段,包括算力与存储的独立优化、batching策略和并行策略。 >> 加入极市CV技术交流群,走在计算机视觉的最前沿 大家好,最近Kimi开源了它的推理架构Mooncake的技术报告,让分离式推理架构的关注度一下升了起来。所以在这个系列中,我打算写一写关于分离式推理架构的一些有趣的优化知识。对于这个架构,我之前也只是了解一些,并没有深入探究过,所以在这个系列中我也和大家一起学习,一起发现好玩的东西。本篇作为该系列的第一篇, 选择DistServe这个分离式架构入手,选择它的原因是 : 这篇论文中通过各种
………………………………