专栏名称: 量子位
վ'ᴗ' ի 追踪AI行业和技术动态,这里更快一步!关注我们,回复“今天”,更多大新闻等你来发现
今天看啥  ›  专栏  ›  量子位

Kimi开源底层推理框架,1小时GitHub揽星1.2k

量子位  · 公众号  · AI  · 2024-11-28 19:05
    

主要观点总结

文章介绍了Kimi联合清华大学等机构开源的大模型推理架构Mooncake。Mooncake采用分阶段开源方式,逐步开源高性能KVCache多级缓存的实现,同时针对各类推理引擎和底层存储/传输资源进行兼容。传输引擎Transfer Engine已经全球开源,最终目标是打造一种新型高性能内存语义存储的标准接口。Mooncake基于以KVCache为中心的解耦架构,通过最大化整体有效吞吐量和满足与延迟相关的服务级别目标(SLO)要求之间取得平衡,实现了推理资源的极致优化。系统已在GitHub上开源,并获得了广泛的关注和支持。包括AISoft、阿里云、华为等在内的多家企业已参与该项目。

关键观点总结

关键观点1: 大模型推理架构Mooncake被开源

Kimi联合清华大学等机构开源了大模型推理架构Mooncake,旨在打造一种新型高性能内存语义存储的标准接口。

关键观点2: Mooncake采用分阶段开源方式

逐步开源高性能KVCache多级缓存的实现,同时兼容各类推理引擎和底层存储/传输资源。

关键观点3: Mooncake提升了Kimi的用户体验和降低成本

Mooncake不仅提升了Kimi的用户体验,而且通过优化推理资源,降低了成本。

关键观点4: Mooncake系统架构的亮点

系统基于以KVCache为中心的PD分离和以存换算架构,通过早期拒绝策略和预测未来负载的方法,大幅度提升了推理吞吐。

关键观点5: Mooncake获得了广泛的支持和参与

包括AISoft、阿里云、华为等在内的多家企业已参与Mooncake项目,共同探索更加高效和先进的模型推理系统架构创新。


文章预览

一水 发自 凹非寺 量子位 | 公众号 QbitAI 什么? Kimi底层推理架构刚刚宣布:开!源!了! 你没听错,就是那个承载了Kimi线上 80%以上 流量的架构。 大约几小时前,月之暗面Kimi联合清华大学等机构,开源了大模型推理架构 Mooncake 。 根据官方介绍,本次开源将采用 分阶段的方式 : 逐步开源高性能KVCache多级缓存Mooncake Store的实现,同时针对各类推理引擎和底层存储/传输资源进行兼容。 其中 传输引擎Transfer Engine 现在已经在GitHub全球开源。 可以看到,Mooncake一经开源,已在GitHub狂揽1.2k star。 其最终开源目标是,为大模型时代打造一种新型高性能内存语义存储的标准接口,并提供参考实现方案。 月之暗面Kimi工程副总裁许欣然表示: 通过与清华大学MADSys实验室紧密合作,我们 共同打造了分离式大模型推理架构Mooncake,实现推理资源的极致优化 。 Moonca ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览