专栏名称: 极市平台
极市平台是由深圳极视角推出的专业的视觉算法开发与分发平台,为视觉开发者提供多领域实景训练数据库等开发工具和规模化销售渠道。本公众号将会分享视觉相关的技术资讯,行业动态,在线分享信息,线下活动等。 网站: http://cvmart.net/
今天看啥  ›  专栏  ›  极市平台

[vLLM vs TensorRT-LLM] #4 系统调度schedule比较

极市平台  · 公众号  ·  · 2024-12-19 22:00
    

文章预览

↑ 点击 蓝字  关注极市平台 作者丨oldpan 来源丨oldpan博客 编辑丨极市平台 极市导读   本文比较了vLLM和TensorRT-LLM两种调度器在处理请求时的性能和资源利用情况,探讨了不同的调度策略如静态请求级调度、迭代级调度和连续批处理对服务性能的影响,并分析了内存感知调度在动态长度请求中的重要性。   >> 加入极市CV技术交流群,走在计算机视觉的最前沿 from https://medium.com/squeezebits-team-blog/vllm-vs-tensorrt-llm-4-which-scheduler-wins-2dc15283522a 前言 Transformer 和LLMs的时代正在蓬勃发展。除了模型架构的演变之外,工作负载变得愈发动态化,使得 系统级优化与模型级优化 同等重要(类似于单一的视觉模型加上了前后处理)。特别是 请求的调度与批处理方式 ,已经成为决定服务性能的关键因素。 尽管 vLLM 和 TensorRT-LLM 之间存在多种差异,其中调度器的设计差 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览