今天看啥  ›  专栏  ›  大语言模型和具身智体及自动驾驶

大语言模型推理加速技术-模型压缩篇

大语言模型和具身智体及自动驾驶  · 公众号  ·  · 2024-07-08 05:27
    

文章预览

由于公众号排版受限,为获最佳体验,欢迎移步至知乎查看:https://zhuanlan.zhihu.com/p/667455383,或者左下角点击原文,或者知乎搜索“尚晋”用户即可找到我。 本文是《大语言模型推理加速技术》系列的第二篇 《大语言模型推理加速技术:计算加速篇》 《大语言模型推理加速技术:模型压缩篇》 《大语言模型推理加速技术:推理框架篇》 简介   本篇介绍左边蓝色的部分,右边绿色的部分在上篇文章 在上一篇文章中我们介绍了不改变模型结构的条件下,加速模型推理的技术,即让模型“算得更快”。而这篇文章将介绍模型压缩的技术,即让模型“算得更少”。模型压缩技术主要分为两大类: 1. 量化(Quantization) :使用低精度(≤16位)存储模型权重。 2. 精简Attention :通过一些变种的Attention算法减少模型计算量。 除此之外还有“投机采样”这种 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览