大型语言模型的模型压缩与高效推理：综述

人工智能AI大模型与汽车自动驾驶 · 公众号 · · 2024-07-18 08:51

文章预览

本文来自专知微信公众号，原文链接https://mp.weixin.qq.com/s/AMBPR6fRjFih6u2905WoPA 基于Transformer的大型语言模型取得了巨大成功。然而，在推理过程中产生的显著内存和计算成本，使得在资源受限的设备上部署大型模型变得具有挑战性。在本文中，作者从算法角度调查了大型语言模型的压缩和高效推理方法。就分类而言，类似于较小的模型，大型语言模型的压缩和加速算法仍可以分为量化、剪枝、蒸馏、紧凑架构设计、动态网络。然而，与较小模型相比，大型语言模型有两个突出的特点：（1）大多数压缩算法在压缩后需要进行微调甚至重新训练模型。大型模型最显著的方面是与模型微调或训练相关的非常高成本。因此，许多针对大型模型的算法，如量化和剪枝，开始探索无需调整的算法。（2）大型模型强调的是通用性和泛化能力，而不是在单一任务 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博