讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战
今天看啥  ›  专栏  ›  大语言模型和具身智体及自动驾驶

无干扰推理:混合下游工作负载的 分解LLM 推理

大语言模型和具身智体及自动驾驶  · 公众号  ·  · 2024-07-07 00:57

文章预览

24年1月来自中科院和华为云的论文“Inference without Interference: Disaggregate LLM Inference for Mixed Downstream Workloads”。 基于 Transformer 的大语言模型 (LLM) 推理服务现已成为许多云服务的骨干。LLM 推理包括预填充阶段和解码阶段。然而,现有的 LLM 部署实践往往忽视了这些阶段的不同特点,从而导致严重的干扰。为了减轻干扰,根据推理请求的特点仔细调度和分组推理请求。通过三大支柱,在 TetriInfer 中实现了这个想法。首先,它将提示分成固定大小块,加速器总是接近其计算饱和极限。其次,它分解预填充和解码实例,以便每个实例都可以独立运行。最后,它用一个智能两级调度算法并增强预测资源使用情况,避免解码调度热点。结果表明,TetriInfer 在性能/美元方面大幅提高了第一个token时间 (TTFT)、作业完成时间 (JCT) 和推理效率,例如,它使用的资源减少 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览