专栏名称: 吃果冻不吐果冻皮
专注于AI工程化(LLM、MLOps、LLMOps、RAG、Agent)落地。
今天看啥  ›  专栏  ›  吃果冻不吐果冻皮

基于 chunked prefill 理解 prefill 和 decode 的计算特性

吃果冻不吐果冻皮  · 公众号  ·  · 2024-09-13 08:30

文章预览

原文: https://zhuanlan.zhihu.com/p/718715866 这几天尝试读懂 SGLang sever arguments 和 feature,其中非常重要的一环是 Chunked Prefilling。我直接用 Claude 和 GPT 来尝试理解这项技术,发现完全是幻觉。GPT 强调了 chunked prefill 会导致模型只能关注到当前的 chunk 和之前哪一个 chunk。然而实际上,chunked prefill 在数学上和不做 chunk 是完全等价的,可以见得对于较新的技术,现在的语言模型几乎都没有实质性掌握过。索性读了读 chunked prefill 的原文,也即这一篇《SARATHI: Efficient LLM Inference by Piggybacking Decodes with Chunked Prefills》。 非常好的文章,由浅入深引人入胜,于是写一篇笔记来记录关于 prefill 和 decode 学到的 insights。 Introduction Prefill 阶段会并行处理输入 prompt 的所有 token,因此很小的 batch size 就会打满 GPU utilization。 比如说,13B 的 LLaMA 输入一条 512 tokens 的 prompt 做 prefill ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览