大模型低显存推理优化-Offload技术

oldpan博客 · 公众号 · · 2024-10-11 09:22

文章预览

【点击】加入大模型技术交流群近两年大模型火出天际；同时，也诞生了大量针对大模型的优化技术。本系列将针对一些常见大模型优化技术进行讲解。大模型推理优化技术-KV Cache 大模型推理服务调度优化技术-Continuous batching 大模型显存优化技术-PagedAttention 大模型低显存推理优化-Offload技术大模型优化技术-FlashAttention 大模型解码优化-Speculative Decoding及其变体另外，我撰写的大模型相关的博客及配套代码均整理放置在Github：llm-action，有需要的朋友自取。由于 GPU 资源稀缺和昂贵，一定程度上使得大模型的应用和普及变得困难。因此，本文从大模型推理部署出发，介绍了一些低硬件成本（消费级GPU、CPU等）部署大模型的方法，并着重介绍了低显存推理优化技术Offload在各个AI框架的应用。简述对于LLM推理场景而言，内存需求主要包括如下几个方 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博