开源大模型推理引擎现状及常见推理优化方法总结

吃果冻不吐果冻皮 · 公众号 · · 2024-11-08 13:03

文章预览

原文：https://zhuanlan.zhihu.com/p/755874470 前言前一段时间sglang-v0.3.0和vllm-v0.6.0前后脚发布之后，就一直想总结梳理一下现在主流的大模型推理引擎。因为我觉得这也算是一个有意义的节点吧，从此开源大模型推理引擎总算是由" 非常粗糙，但是能用 "的阶段迈入到了" 好用，稍微有那么点粗糙 "的阶段。大模型的推理引擎实际也就是近一两年才开始飞速发展，从最开始的tgi和vllm并驾齐驱到如今sglang、lmdeply的异军突起，整个开源社区都是非常有活力的。但是正如之前所说，从长远的一个视角看如今的开源引擎实际上都还是比较粗糙的，大家都是在摸索中前进。另一方面也是因为现在全世界的目光都聚焦在llm这里，新技术的更新换代太快了，做好一个大模型的推理引擎要做的事情实在是太太太太多了。除了要支持日新月异的新模型和新硬件，还要不断关心 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博