文章预览
24年1月来自中科院和华为云的论文“Inference without Interference: Disaggregate LLM Inference for Mixed Downstream Workloads”。 基于 Transformer 的大语言模型 (LLM) 推理服务现已成为许多云服务的骨干。LLM 推理包括预填充阶段和解码阶段。然而,现有的 LLM 部署实践往往忽视了这些阶段的不同特点,从而导致严重的干扰。为了减轻干扰,根据推理请求的特点仔细调度和分组推理请求。通过三大支柱,在 TetriInfer 中实现了这个想法。首先,它将提示分成固定大小块,加速器总是接近其计算饱和极限。其次,它分解预填充和解码实例,以便每个实例都可以独立运行。最后,它用一个智能两级调度算法并增强预测资源使用情况,避免解码调度热点。结果表明,TetriInfer 在性能/美元方面大幅提高了第一个token时间 (TTFT)、作业完成时间 (JCT) 和推理效率,例如,它使用的资源减少
………………………………