专栏名称: GiantPandaCV
专注于机器学习、深度学习、计算机视觉、图像处理等多个方向技术分享。团队由一群热爱技术且热衷于分享的小伙伴组成。我们坚持原创,每天一到两篇原创技术分享。希望在传播知识、分享知识的同时能够启发你,大家一起共同进步(・ω<)☆
目录
相关文章推荐
今天看啥  ›  专栏  ›  GiantPandaCV

ModelServer:基于 SGLang 的前端分发系统

GiantPandaCV  · 公众号  · 3D  · 2024-12-06 20:10
    

文章预览

作者丨Chayenne Zhao 来源丨https://zhuanlan.zhihu.com/p/718015016 编辑丨GiantPandaCV 前段时间被 Alfword 折磨的够呛。当我在服务器上同时开跑上千个 Alfword 游戏后,LLM server 的效率显著下降,并且经常出现 connection time out。索性我手写了一个集成了 configuration 和 serving 的框架来解决这些问题。具体而言,我希望利用 SGLang 同时 serve 多个模型(比如 8 个 Llama3.1 8b),每个模型映射单独的端口;同时开启上千个 running task,每个 task 具有一个 ModelServer 用以选择所有端口中的某一个进行交互。 在此基础上: ModelServer 在单次 API 请求失败时,进行有限的重试; ModelServer 会在 init 以及单次 API 请求时间超长时,遍历当前的所有端口,选择最快的端口——尽可能使用同一个端口是为了充分利用 SGLang 后端的前缀树; Chayenne Zhao:SGLang 后端原文解析 https://zhuanlan.zhihu.com/p/716543182 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览