文章预览
作者丨方佳瑞 来源丨https://www.zhihu.com/question/649192998/answer/3546745976 编辑丨GiantPandaCV 这周,清华和Moonshot发了一个技术报告 (https://github.com/kvcache-ai/Mooncake/blob/main/Mooncake-v1.pdf),介绍Kimi背后的LLM服务系统Mooncake,它采用分离式设计,将Prefill和Decode两阶段解耦,构建了一个全局KVCache Pool,实现以Cache为中心的调度。 Moonshot作为MaaS头部厂商,以其过硬的技术产品实力和明星的团队阵容闻名于世。和其他大模型公司不一样,他们很少发技术报告或对外做技术分享。这次Mooncake技术报告,让大家得对其技术得以管中窥豹。 论文的通信作者为Moonshot的许欣然与清华大学计算机系的 章明星 ,两位均是重量级大咖,也分别在知乎宣传了Mooncake的工作。许欣然在AISys领域深耕多年,曾执掌MegEngine,工程经验丰富,如今在Moonshot担任工程副总裁一职。章明星过去研究
………………………………