今天看啥  ›  专栏  ›  InfoQ

Mooncake 分离式推理架构创新与实践

InfoQ  · 公众号  · 科技媒体  · 2024-11-20 15:00

文章预览

分享嘉宾 | 何蔚然 编辑 | Kitty 策划 | QCon 全球软件开发大会 随着大型语言模型的社会影响力日益增强,相应的人工智能产品用户基数也在迅速扩大。目前,AI 产品发展的一个主要挑战是如何在有限的计算资源下,有效应对日益增长的用户需求。 在 2024 年 10 月 18−19 日举办的 QCon 全球软件开发大会(上海站) 上,月之暗面推理系统负责人何蔚然分享了“Mooncake 分离式推理架构创新与实践”,他从实际业务出发,讲述了在固定集群资源的条件下,通过采用单点和分布式推理架构,提升集群处理大规模请求的能力的挑战和解决思路,希望能给大家带来一些帮助。     内容亮点: 经过实际生产环境大规模验证的分离式推理系统,面对真实线上负载实现性能提升; 从实际业务出发,分析推理系统设计决定和关键技术。 以下是演讲实录(经 InfoQ 进行 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览