专栏名称: oldpan博客
老潘的博客,程序员眸中的fantasy life,分享AI技术干货,让大家少走弯路~
今天看啥  ›  专栏  ›  oldpan博客

基于 chunked prefill 理解 prefill 和 decode 的计算特性

oldpan博客  · 公众号  ·  · 2024-09-11 09:26
    

文章预览

来自   Chayenne Zhao 链接  https://zhuanlan.zhihu.com/p/718715866 这几天尝试读懂 SGLang sever arguments 和 feature,其中非常重要的一环是 Chunked Prefilling。我直接用 Claude 和 GPT 来尝试理解这项技术,发现完全是幻觉。GPT 强调了非常久 chunked prefill 会导致模型的只能关注到当前的 chunk 和之前哪一个 chunk。然而实际上,chunked prefill 在数学上和不做 chunk 是完全等价的,可以见得对于较新的技术,现在的语言模型几乎都没有实质性掌握过。索性读了读 chunked prefill 的原文,也即这一篇《SARATHI: Efficient LLM Inference by Piggybacking Decodes with Chunked Prefills》。 SARATHI: Efficient LLM Inference by Piggybacking Decodes with Chunked Prefillsarxiv.org/abs/2308.16369 非常好的文章,由浅入深引人入胜,于是写一篇笔记来记录关于 prefill 和 decode 学到的 insights。 Introduction Prefill 阶段会并行处理输入 prompt 的所有 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览