专栏名称: GiantPandaLLM

专注于机器学习、深度学习、计算机视觉、图像处理等多个方向技术分享。团队由一群热爱技术且热衷于分享的小伙伴组成。我们坚持原创，每天一到两篇原创技术分享。希望在传播知识、分享知识的同时能够启发你，大家一起共同进步(･ω<)☆

我也要提交微信公众号

今天看啥

公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词RSS订阅方法

知网期刊RSS订阅方法

即刻RSS订阅方法

ModelServer：基于 SGLang 的前端分发系统

GiantPandaLLM · 公众号 · 3D · 2024-12-06 20:10

主要观点总结

文章主要介绍了作者在服务器上同时运行上千个Alfword游戏后遇到的LLM server效率下降和connection time out问题，并为此手写了一个集成了configuration和serving的框架——ModelServer，来解决这些问题。ModelServer实现了多模型并行服务、最速端口选择、有限容错、可扩展性和性能监控等功能。

关键观点总结

关键观点1: 服务器效率问题

作者在服务器上同时运行上千个Alfword游戏后，LLM server的效率显著下降，并且经常出现connection time out。

关键观点2: ModelServer框架的解决方式

作者手写了一个集成了configuration和serving的框架——ModelServer，来解决上述问题。它支持多模型并行服务，每个模型映射到单独的端口，并开启上千个running task。

关键观点3: ModelServer的特性

ModelServer具有最速端口选择、有限容错、可扩展性和性能监控等功能。它会在单次API请求失败时进行有限的重试，并在init以及单次API请求时间超长时，选择最快的端口。

关键观点4: SGLang后端的应用

文章还提到了SGLang后端的应用，包括原文解析和与ModelServer的交互。

关键观点5: 公众号的关注价值

该公众号专注技术分享、学术交流和资料共享，欢迎关注一起成长。

文章预览

作者丨Chayenne Zhao 来源丨https://zhuanlan.zhihu.com/p/718015016 编辑丨GiantPandaCV 前段时间被 Alfword 折磨的够呛。当我在服务器上同时开跑上千个 Alfword 游戏后，LLM server 的效率显著下降，并且经常出现 connection time out。索性我手写了一个集成了 configuration 和 serving 的框架来解决这些问题。具体而言，我希望利用 SGLang 同时 serve 多个模型（比如 8 个 Llama3.1 8b），每个模型映射单独的端口；同时开启上千个 running task，每个 task 具有一个 ModelServer 用以选择所有端口中的某一个进行交互。在此基础上： ModelServer 在单次 API 请求失败时，进行有限的重试； ModelServer 会在 init 以及单次 API 请求时间超长时，遍历当前的所有端口，选择最快的端口——尽可能使用同一个端口是为了充分利用 SGLang 后端的前缀树； Chayenne Zhao：SGLang 后端原文解析 https://zhuanlan.zhihu.com/p/716543182 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博