专栏名称: 吃果冻不吐果冻皮
专注于AI工程化(LLM、MLOps、LLMOps、RAG、Agent)落地。
目录
今天看啥  ›  专栏  ›  吃果冻不吐果冻皮

借着triton inference server聊一下各种batching方法

吃果冻不吐果冻皮  · 公众号  ·  · 2024-06-04 12:43
    

文章预览

【点击】 加入大模型技术交流群 在实际的模型部署场景中,我们一般会先优化模型的性能,这也是最直接提升模型服务性能的方式。 但如果从更全局方面考虑的话,除了模型的性能,整体的调度和pipeline优化对服务的性能影响也是很大。 比如LLM中提的很多的 `Continuous batching` [1] ,对整体LLM推理的性能影响就很大,这个不光光是提升kernel性能能够解决的问题。 这里总结下各种batching策略,以及各种batch策略对整体性能的影响,可能不够全面,也希望能够抛砖引玉,一起交流。 单batch 单batch就是不组batch,也就是一个图片或者一个sentence传过来,直接送入模型进行推理。 对于普通CV模型来说,我们的输入tensor大小可以是 [1,3,512,512] ,以NCHW维度举例子,这里的N是1,即 batch=1 。对于LLM来说,可能是一个input_ids,维度是 [1,1] ,比如: input_ids tensor([[   0,  ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览