注册登录

专栏名称: oldpan博客

老潘的博客，程序员眸中的fantasy life，分享AI技术干货，让大家少走弯路~

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

目录

相关文章推荐

CFC商品策略研究 · 【棉花周报】新棉加工提速但销售进展缓慢 · 2 天前

微观三农 · 畜禽养殖废弃物处理与保险联动工作推进会在江苏召开 · 6 天前

博亚和讯 · 【铁骑力士特约】家禽市场每日简评【11.26】 · 6 天前

今天看啥 › 专栏 › oldpan博客

基于 chunked prefill 理解 prefill 和 decode 的计算特性

oldpan博客 · 公众号 · · 2024-09-11 09:26

文章预览

来自 Chayenne Zhao 链接 https://zhuanlan.zhihu.com/p/718715866 这几天尝试读懂 SGLang sever arguments 和 feature，其中非常重要的一环是 Chunked Prefilling。我直接用 Claude 和 GPT 来尝试理解这项技术，发现完全是幻觉。GPT 强调了非常久 chunked prefill 会导致模型的只能关注到当前的 chunk 和之前哪一个 chunk。然而实际上，chunked prefill 在数学上和不做 chunk 是完全等价的，可以见得对于较新的技术，现在的语言模型几乎都没有实质性掌握过。索性读了读 chunked prefill 的原文，也即这一篇《SARATHI: Efficient LLM Inference by Piggybacking Decodes with Chunked Prefills》。 SARATHI: Efficient LLM Inference by Piggybacking Decodes with Chunked Prefillsarxiv.org/abs/2308.16369 非常好的文章，由浅入深引人入胜，于是写一篇笔记来记录关于 prefill 和 decode 学到的 insights。 Introduction Prefill 阶段会并行处理输入 prompt 的所有 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

CFC商品策略研究 · 【棉花周报】新棉加工提速但销售进展缓慢

2 天前

微观三农 · 畜禽养殖废弃物处理与保险联动工作推进会在江苏召开

6 天前

博亚和讯 · 【铁骑力士特约】家禽市场每日简评【11.26】

6 天前

中国化学工程第三建设有限公司 · 聚焦精益管理｜潘新宇带领精细化管理检查组深入贵州骐信煤炭深加工及综合利用一体化项目调研

5 月前

化工新材料 · SAP世界第一巨头，宣布扩产！

3 月前

国企求职网 · 宁德时代2025届全球校园招聘正式启动

3 月前

电子发烧友网 · 储能中确保电源正确管理的DC-DC转换器

2 月前

关于移动版 · Py中国 · RSS之家 · CodingPro · Code · Link之家 · 卧龙AI搜索 · 小百科

今天看啥 - 微信公众号rss订阅, 微信rss, 稳定的RSS源

© 2024 ~ 沪ICP备11025650号