无干扰推理：混合下游工作负载的分解LLM 推理

大语言模型和具身智体及自动驾驶 · 公众号 · · 2024-07-07 00:57

文章预览

24年1月来自中科院和华为云的论文“Inference without Interference: Disaggregate LLM Inference for Mixed Downstream Workloads”。基于 Transformer 的大语言模型 (LLM) 推理服务现已成为许多云服务的骨干。LLM 推理包括预填充阶段和解码阶段。然而，现有的 LLM 部署实践往往忽视了这些阶段的不同特点，从而导致严重的干扰。为了减轻干扰，根据推理请求的特点仔细调度和分组推理请求。通过三大支柱，在 TetriInfer 中实现了这个想法。首先，它将提示分成固定大小块，加速器总是接近其计算饱和极限。其次，它分解预填充和解码实例，以便每个实例都可以独立运行。最后，它用一个智能两级调度算法并增强预测资源使用情况，避免解码调度热点。结果表明，TetriInfer 在性能/美元方面大幅提高了第一个token时间 (TTFT)、作业完成时间 (JCT) 和推理效率，例如，它使用的资源减少 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博