大模型加速的综述！

深度学习与NLP · 公众号 · · 2024-07-20 00:00

文章预览

1 介绍大型语言模型在人工智能领域中具有巨大的潜力，但推理过程中的禁止记忆和计算预算阻碍了其部署。为了应对这些挑战，提出了许多针对LLMs的推理加速方法，包括剪枝、知识传递、量化、紧凑的架构设计以及动态网络等。这些方法有助于减少模型推理过程中的内存和计算成本，以便模型可以在各种资源受限的设备上运行。 2 预备基本知识 2.1 Transformer Transformer最初被应用在机器翻译中，其基本结构如图1所示。图1 Transformer 基本结构注意力。注意力机制是将输入序列中的每个令牌映射到查询和/或键值对向量，然后将查询与一组键值对映射到输出，输出是值的加权和计算得出的，权重通过查询与相应键的兼容性函数计算。最常见的注意力模块是归一化点积函数：其中，权重通过Q和K的点积计算得出，√dk是一个常量的缩放因子。多 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博