专栏名称: 吃果冻不吐果冻皮
专注于AI工程化(LLM、MLOps、LLMOps、RAG、Agent)落地。
今天看啥  ›  专栏  ›  吃果冻不吐果冻皮

深度探索Stable Diffusion模型推理加速

吃果冻不吐果冻皮  · 公众号  ·  · 2024-08-13 11:45

文章预览

大模型时代,模型的参数量动辄数十亿甚至千亿,比如GPT-3的参数量达到了1750亿。1750亿个参数,如果采用fp16存储,那么模型的大小约为325.5G,现有最强的计算平台也很难满足其显存要求。此外,大模型部署上线后,推理速度直接影响了用户的使用体验,因为没有用户可以忍受大模型输出文字或者输出图片的响应速度超过3分钟。 针对大模型存储以及推理的实际诉求,工业界迫切需要模型压缩与推理加速技术,比如INT8量化甚至1bit量化、CUDA Graph优化、ONNX模型以及Pipeline优化等。除了技术不断迭代之外, 模型压缩与推理工程师人才的需求也在迅速增加 ,究其原因在于,各大企业正通过开源的基础大模型进行垂直业务场景大模型的研发以及部署。 就类似于手机操作系统,目前市面上主流的手机操作系统仅有安卓、IOS、鸿蒙等几个,但大多数互联网企业 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览