The State of vLLM 2024

oldpan博客 · 公众号 · · 2024-10-29 10:10

文章预览

本文来自ray summit 2024上 vllm现状及roadmap分享，带大家一起回顾vllm发展历史、过去一年的发展及接下来Q4规划。 vllm的目标是构建最快、最易使用的开源大模型推理服务引擎，最初起源可追溯到22年8月，用于解决大模型推理慢速问题。23年2月提出了pagedattention概念，并于23年4月提交相关论文。在社区帮助下快速迭代发展，成为最受欢迎的LLM服务引擎之一。过去一年的工作内容模型支持，支持几乎所有llm和vlm模型且效率非常高，包括LLama系列模型/Mixtral系列模型/LLava多模态/状态空间模型/reward模型等硬件支持，支持主流的xPU，如nvidia GPU/amd GPU/Intel GPU/Google TPU等模型性能优化深层次的 cuda kernel优化，如计算时异步数据传输/优化内存访问（精度精度-高效数据类型-减少数据传输量）/增加并行度等优化allreduce通信。利用cutlass库优化GEMM，实现kernel fusion等功能 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

芋道源码 · 为什么有的网站链接这么短？

昨天

芋道源码 · 什么情况，后端开发今年又爆了。。。

昨天

芋道源码 · DeepSeek本地部署，保姆级教程，带你打造最强AI

昨天

思明快报 · 崩溃！近期猛增，比高温更难熬，不少人中招

8 月前

中关村储能产业技术联盟 · 储能价格“内卷”难料底，谁来为安全买单？

7 月前

中国标准信息服务网 · 【技贸评议】推荐评议美国通报的1项通用照明灯相关措施

3 周前