专栏名称: Ai fighting
本公众号主要分享自动驾驶感知实战,从算法训练到模型部署。主要致力于3D目标检测,3D目标追踪,多传感器融合,Transform,BEV,OCC,模型量化,模型部署等方向的实战。
今天看啥  ›  专栏  ›  Ai fighting

大模型推理分离架构五虎上将

Ai fighting  · 公众号  ·  · 2024-11-18 07:00
    

文章预览

原文:https://zhuanlan.zhihu.com/p/706218732 DistServe https://zhuanlan.zhihu.com/p/696864514 DistServe这篇文章比较容易读(prefill和generate分离,论文里并未考虑异构、容错、抢占,也没有涉及一些序列并行、prompt cache之类的)。下面介绍个人认为这篇文章的几个重要关注点: 1,详细从LLM推理角度详细的解释为什么要做prefill和genrate阶段分离,主要原因如下: a,将单个预填充作业添加到解码请求的批处理中会显著减慢两个过程,导致TTFT和TPOT显著增加。 b,由于解码作业需要等待GPU上正在进行的预填充作业,解码作业可能会经历更长的排队延迟。 c,将预填充和解码阶段放置在同一 GPU 上不可避免地共享它们的资源和并行性设置。然而,每个阶段都具有其独特的计算特性和延迟要求,需要更多的异构资源分配。 d,预填充和解码阶段共同部署,增加解码批处理大小很困 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览