专栏名称: 吃果冻不吐果冻皮

专注于AI工程化（LLM、MLOps、LLMOps、RAG、Agent）落地。

我也要提交微信公众号

今天看啥

公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词RSS订阅方法

知网期刊RSS订阅方法

即刻RSS订阅方法

相关文章推荐

网信湖南 · 关于开展个人信息保护负责人信息报送工作的公告 · 8 小时前

个人信息保护前沿观察 · 前沿动态观察（7.16-7.18） · 15 小时前

成都天大仪器股份有限公司 · 成都天大仪器助力高校人才培养 | ... · 昨天

产品可靠性报告 · 第五届中国汽车质量技术大会走进宝马，迈向“新世代” · 昨天

新浪科技 · 【#美团高管回应刘强东称只赚5%#：大哥，从 ... · 2 天前

今天看啥 › 专栏 › 吃果冻不吐果冻皮

图解大模型分离式推理架构2，模糊分离与合并边界的chunked-prefills

吃果冻不吐果冻皮 · 公众号 · 前端科技媒体 · 2024-07-23 12:00

主要观点总结

文章介绍了使用分离式推理架构的优势，并讨论了如何在不解耦的情况下，通过改进传统batching方法，同时提高系统吞吐量和降低延迟。文章提出了Sarathi-Serve架构，该架构使用切块式prefill（chunked-prefills）和无停滞式调度策略（stall-free schedules），实现了在不解耦的情况下，提升系统性能。同时，文章也介绍了Sarathi-Serve与其余架构的关系，并探讨了其背后的核心技术。

关键观点总结

关键观点1: 分离式推理架构的优势

分离式推理架构可以解耦prefill和decode过程，使得两者能朝着独立的方向优化，改进TTFT和TPOT/TBT，无需在两者之间做trade-off。

关键观点2: 改进传统batching方法

文章提出了Sarathi-Serve架构，通过切块式prefill和无停滞式调度策略，在不解耦的情况下，提升系统性能。

关键观点3: Sarathi-Serve与其余架构的关系

文章讨论了Sarathi-Serve与Orca、vllm等架构的关系，并探讨了其背后的核心技术。

免责声明

免责声明：本文内容摘要由平台算法生成，仅为信息导航参考，不代表原文立场或观点。原文内容版权归原作者所有，如您为原作者并希望删除该摘要或链接，请通过【版权申诉通道】联系我们处理。

原文地址：访问原文地址
总结与预览地址：访问总结与预览
推荐产品: 推荐产品
文章地址：访问文章快照

分享到微博