vLLM这一年的新特性以及后续规划（总结版!）

oldpan博客 · 公众号 · · 2024-11-07 08:56

文章预览

本文来自 The State of vLLM | Ray Summit 2024 & & RoadMap的分享，带大家一起回顾下vllm发展历史、过去一年的发展及接下来Q4规划。感兴趣的也可以查看原视频： https://www.youtube.com/watch?v=4HPRf9nDZ6Q [1] 过去一年vLLM的工作内容记得vLLM在九月初更新了一个版本 [2] ，性能有了明显的提升（支持了 multi step ，因为减少了CPU overhead，会对吞吐会有提升，但是带来的副作用是TTFT和ITL会变大），某些场景确实带来了收益。 vLLM在2024年更新了很多内容～首先是模型支持，支持几乎所有的llm和vlm模型且效率非常高，这点确实要比TRT-LLM支持更快更方便，涉及到底层改动支持的模型，TRT-LLM因为底层限制只能提个issue等官方支持。而vLLM就很方便，目前vLLM支持的模型有：包括LLama系列模型/Mixtral系列模型/LLava多模态/State-Space模型/reward模型等除了GPU也支持很多其他的硬件，如a ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博