讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战
目录
相关文章推荐
今天看啥  ›  专栏  ›  大语言模型和具身智体及自动驾驶

DistServe:分解预填充和解码实现吞吐量优化的LLM服务

大语言模型和具身智体及自动驾驶  · 公众号  ·  · 2024-07-04 00:47

文章预览

24年6月来自北大、 阶跃星辰 (stepfun)AI创业公司和UCSD 等研究机构的论文“DistServe: Disaggregating Prefill and Decoding for Goodput-optimized Large Language Model Serv ing”。 DistServe 通过分解预填充和解码计算来提高大语言模型 (LLM) 服务的性能。现有的 LLM 服务系统将两个阶段共置,并在所有用户和请求中批量处理预填充和解码的计算。这种策略不仅会导致强烈的预填充解码干扰,而且还会将两个阶段的资源分配和并行规划结合在一起。LLM 应用程序通常强调每个阶段的单独延迟:预填充阶段的 第一个token时间 (TTFT) 和解码阶段每个请求的 每个输出token时间 (TPOT) 。在存在严格的延迟要求情况下,现有系统必须优先考虑一个延迟,或者过度配置计算资源,以满足两个要求。 DistServe 将预填充和解码计算分配给不同的 GPU,从而消除预填充解码干扰。考虑到应用程序的 TTFT ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览