文章预览
24年6月来自北大、 阶跃星辰 (stepfun)AI创业公司和UCSD 等研究机构的论文“DistServe: Disaggregating Prefill and Decoding for Goodput-optimized Large Language Model Serv ing”。 DistServe 通过分解预填充和解码计算来提高大语言模型 (LLM) 服务的性能。现有的 LLM 服务系统将两个阶段共置,并在所有用户和请求中批量处理预填充和解码的计算。这种策略不仅会导致强烈的预填充解码干扰,而且还会将两个阶段的资源分配和并行规划结合在一起。LLM 应用程序通常强调每个阶段的单独延迟:预填充阶段的 第一个token时间 (TTFT) 和解码阶段每个请求的 每个输出token时间 (TPOT) 。在存在严格的延迟要求情况下,现有系统必须优先考虑一个延迟,或者过度配置计算资源,以满足两个要求。 DistServe 将预填充和解码计算分配给不同的 GPU,从而消除预填充解码干扰。考虑到应用程序的 TTFT
………………………………