专栏名称: 深度学习与NLP
专注深度学习、NLP相关技术、资讯,追求纯粹的技术,享受学习、分享的快乐。
今天看啥  ›  专栏  ›  深度学习与NLP

大模型加速的综述!

深度学习与NLP  · 公众号  ·  · 2024-07-20 00:00

文章预览

1  介绍 大型语言模型在人工智能领域中具有巨大的潜力 ,但 推理过程中的禁止记忆和计算预算阻碍了其部署。 为了应对这些挑战, 提出了许多针对LLMs的推理加速方法,包括 剪枝、知识传递、量化、紧凑的架构设计以及动态网络 等。这些方法有助于减少模型推理过程中的内存和计算成本,以便模型可以在各种资源受限的设备上运行。 2  预备基本知识 2.1  Transformer Transformer最初被应用在机器翻译中,其基本结构如图1所示。 图1 Transformer 基本结构 注意力。 注意力机制是将输入序列中的每个令牌映射到查询和/或键值对向量,然后将查询与一组键值对映射到输出,输出是值的加权和计算得出的,权重通过查询与相应键的兼容性函数计算。最常见的注意力模块是归一化点积函数: 其中,权重通过Q和K的点积计算得出,√dk是一个常量的缩放因子。 多 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览