如何实现大模型推理加速优化？路径有哪些？

大语言模型和具身智体及自动驾驶 · 公众号 · · 2024-07-15 00:13

文章预览

PRepBN SLAB: Efficient Transformers with Simplified Linear Attention and Progressive Re-parameterized Batch Normalizationhttps://github.com/xinghaochen/SLAB 方法 1、LayerNorm需要在每个样本的特征维度上计算均值和标准差，这可能在特征维度非常大时导致较高的计算开销，且LayerNorm可以稳定训练。BatchNorm使用训练时的统计均值和方差数据直接计算，导致较低的推理延迟，但可能导致训练崩溃和较差的性能。提出了一种PRepBN的新方法，通过使用超参数lamda来控制两个归一化层的比例，在训练中逐步用重新参数化的BatchNorm替换LayerNorm。代码实现 https://github.com/xinghaochen/SLAB/blob/main/llama/modeling/llama-350M/modeling_llama.py 2、提出了一个简化的线性注意力（SLA）模块，该模块利用ReLU作为内核函数，并结合了一个深度卷积来执行局部特征增强，简单而有效地实现强大的性能。改为 DWC(·)表示深度卷积。 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博