文章预览
转发一下 kimi 许欣然的最新文章,也欢迎关注他们最新的 Tech Report:GitHub - kvcache-ai/Mooncake。未来的推理优化还有巨大空间...就比如apple intelligence目前的这套系统,留出了推理优化和架构创新的各种可能性... 本论文与很多 Prefill/Decoding 分离的论文不同的是,这套方案已经在大规模集群上进行几个月的验证并证明了方案的有效性。 目前这套系统承载了 Kimi 线上80% 以上的流量, 效果很好也为产品带来了更多的设计空间。 这也是为什么一个 POC 写在所有业内论文之前的系统,直到今天才发布出来跟大家见面。 系统是需要跟随着应用快速变化的,同时也需要 硬件厂商 和 云厂商 早点接受新的理念才能跟上浪潮。发出这篇论文,主要是希望给各方提供一些信心,提供一些推理规模足够大场景下的必然优化思路。 趁这个机会,希望给各家硬件厂商和云厂商
………………………………