文章预览
1 介绍 大型语言模型在人工智能领域中具有巨大的潜力 ,但 推理过程中的禁止记忆和计算预算阻碍了其部署。 为了应对这些挑战, 提出了许多针对LLMs的推理加速方法,包括 剪枝、知识传递、量化、紧凑的架构设计以及动态网络 等。这些方法有助于减少模型推理过程中的内存和计算成本,以便模型可以在各种资源受限的设备上运行。 2 预备基本知识 2.1 Transformer Transformer最初被应用在机器翻译中,其基本结构如图1所示。 图1 Transformer 基本结构 注意力。 注意力机制是将输入序列中的每个令牌映射到查询和/或键值对向量,然后将查询与一组键值对映射到输出,输出是值的加权和计算得出的,权重通过查询与相应键的兼容性函数计算。最常见的注意力模块是归一化点积函数: 其中,权重通过Q和K的点积计算得出,√dk是一个常量的缩放因子。 多
………………………………