今天看啥  ›  专栏  ›  InfoQ

Kimi 背后的长文本大模型推理实践:以 KVCache 为中心的分离式推理架构

InfoQ  · 公众号  · 科技媒体  · 2024-09-20 16:57

文章预览

演讲嘉宾|唐飞虎 编辑 |蔡芳芳 策划 |AICon 全球人工智能开发与应用大会 在不久前举办的 AICon 全球人工智能开发与应用大会上,月之暗面高级研发工程师、开发者关系负责人唐飞虎发表了专题演讲“长文本大模型推理实践——以 KVCache 为中心的分离式推理架构”,分享介绍 Kimi 智能助手背后的推理加速方案,以及该方案在设计时所需要考虑的指标和在真实生产环境中部署的表现。 在 10 月 18 -19 日即将召开的 QCon 上海站上,我们专门策划了【 大模型基础设施与算力优化 】专场,并邀请到月之暗面推理系统负责人何蔚然进一步分享 Mooncake 分离式推理架构创新与实践,同时微软亚洲研究院软件开发工程师姜慧强将分享 《 长文本 LLMs 推理优化:动态稀疏性算法的应用实践 》,还有更多大模型训练推理的一手实践案例尽在本专题。欲了解更 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览