DistServe：分解预填充和解码实现吞吐量优化的LLM服务

大语言模型和具身智体及自动驾驶 · 公众号 · · 2024-07-04 00:47

文章预览

24年6月来自北大、阶跃星辰（stepfun）AI创业公司和UCSD 等研究机构的论文“DistServe: Disaggregating Prefill and Decoding for Goodput-optimized Large Language Model Serv ing”。 DistServe 通过分解预填充和解码计算来提高大语言模型 (LLM) 服务的性能。现有的 LLM 服务系统将两个阶段共置，并在所有用户和请求中批量处理预填充和解码的计算。这种策略不仅会导致强烈的预填充解码干扰，而且还会将两个阶段的资源分配和并行规划结合在一起。LLM 应用程序通常强调每个阶段的单独延迟：预填充阶段的第一个token时间 (TTFT) 和解码阶段每个请求的每个输出token时间 (TPOT) 。在存在严格的延迟要求情况下，现有系统必须优先考虑一个延迟，或者过度配置计算资源，以满足两个要求。 DistServe 将预填充和解码计算分配给不同的 GPU，从而消除预填充解码干扰。考虑到应用程序的 TTFT ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博