专栏名称: oldpan博客
老潘的博客,程序员眸中的fantasy life,分享AI技术干货,让大家少走弯路~
今天看啥  ›  专栏  ›  oldpan博客

借着triton inference server聊一下各种batching方法

oldpan博客  · 公众号  ·  · 2024-06-03 09:17
    

文章预览

  在实际的模型部署场景中,我们一般会先优化模型的性能,这也是最直接提升模型服务性能的方式。但如果从更全局方面考虑的话,除了模型的性能,整体的调度和pipeline优化对服务的性能影响也是很大。 比如LLM中提的很多的 `Continuous batching` [1] ,对整体LLM推理的性能影响就很大,这个不光光是提升kernel性能能够解决的问题。 这里总结下各种batching策略,以及各种batch策略对整体性能的影响,可能不够全面,也希望能够抛砖引玉,一起交流。 单batch 单batch就是不组batch,也就是一个图片或者一个sentence传过来,直接送入模型进行推理。 对于普通CV模型来说,我们的输入tensor大小可以是 [1,3,512,512] ,以NCHW维度举例子,这里的N是1,即 batch=1 。对于LLM来说,可能是一个input_ids,维度是 [1,1] ,比如: input_ids tensor([[   0,  376, 1366,  338,  263, 3017,  77 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览