专栏名称: AINLP
关注AI、NLP相关技术,关注算法研发职位和课程;回复"文章"获取历史信息;双语聊天机器人"无名";中英翻译请输入:翻译 翻译内容;自动对联,请输入:上联 上联内容;调戏夸夸聊天机器人,请求夸、求赞;查询相似词,请输入: 相似词 词条
目录
今天看啥  ›  专栏  ›  AINLP

大模型推理优化技术-KV Cache

AINLP  · 公众号  ·  · 2024-05-29 10:10
    

文章预览

近两年大模型火出天际;同时,也诞生了大量针对大模型的优化技术。本系列将针对一些常见大模型优化技术进行讲解。 大模型推理优化技术-KV Cache 大模型显存优化技术-PagedAttention 大模型显存I/O优化技术-FlashAttention V1 大模型推理优化技术-Flash-Decoding 大模型显存优化技术-ZeRO系列 大模型解码优化-Speculative Decoding及其变体 大模型推理服务化调度优化技术-Continuous batching 另外,我撰写的 大模型相关的博客及配套代码 均整理放置在Github:llm-action,有需要的朋友自取。 而本文将针对仅编码器Transformer架构(Decoder-Only Transformer)的模型必备显存优化技术 KV Cache 进行讲解。 image.png KV Cache 简介 KV Cache 是大模型推理性能优化的一个常用技术,该技术可以在不影响任何计算精度的前提下,通过空间换时间的思想,提高推理性能。 KV Cache 诞生的背景 对于仅编码 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览