今天看啥  ›  专栏  ›  OneFlow

LLM Serving有效吞吐量的最大化实现

OneFlow  · 公众号  ·  · 2024-05-15 08:17
如今的LLM应用具有多样化的时延要求。例如,聊天机器人可能需要快速的初始响应(例如,少于0.2秒),但在解码速度上只需要匹配人类阅读速度,而代码补全则需要快速的端到端生成时间,以实现实时代码建议。本文说明了优化吞吐量(throughput)的现有serving系统,在时延标准下并不是最优选择。作者主张使用有效吞吐量(goodput),即符合服务等级目标(SLO)的每秒完成请求数量,作为衡量LLM serving性能的改进指标,以考虑成本和用户满意度。为优化有效吞吐量,作者引入了预填充-解码解耦(prefill-decode disaggregation),也就是将预填充从解码中分离到不同的GPU。他们还构建了一个系统原型DistServe,能够实现高达4.48倍的吞吐量或SLO严格(tighter)10.2倍,同时保持在严格的时延约束内。DistServe正在集成到vLLM中。(以下内容由OneFlow编译发布,转载请联 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照