专栏名称: 吃果冻不吐果冻皮
专注于AI工程化(LLM、MLOps、LLMOps、RAG、Agent)落地。
今天看啥  ›  专栏  ›  吃果冻不吐果冻皮

大模型推理服务调度优化技术-Continuous batching

吃果冻不吐果冻皮  · 公众号  ·  · 2024-09-11 12:27

文章预览

【点击】 加入大模型技术交流群 近两年大模型火出天际;同时,也诞生了大量针对大模型的优化技术。本系列将针对一些常见大模型优化技术进行讲解。 大模型推理优化技术-KV Cache 大模型显存优化技术-PagedAttention 大模型优化技术-FlashAttention 大模型推理优化技术-Flash-Decoding 大模型显存优化技术-ZeRO系列 大模型解码优化-Speculative Decoding及其变体 大模型推理服务请求调度优化技术-Continuous batching “ 另外,我撰写的 大模型相关的博客及配套代码 均整理放置在Github:llm-action,有需要的朋友自取。 由于类 GPT 的仅编码器模型推理分为预填充和解码两个阶段。在解码阶段一次推理只输出一个token,输出的 token 会与输入 tokens 拼接在一起,然后作为下一次推理的输入,这样不断反复直到遇到终止符。这样会造成大量的冗余计算。同时用由于仅编码器模型的 S ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览