文章预览
24年6月来自上交大论文“Turbo Sparse: Achieving LLM SOTA Performance with Minimal Activated Parameters”。 利用激活稀疏性是一种很有前途的方法,可以显著加速大语言模型 (LLM) 的推理过程,而不会影响性能。然而,激活稀疏性由激活函数决定,而常用的激活函数如 SwiGLU 和 GeGLU 表现出有限的稀疏性。简单地用 ReLU 替换这些函数无法实现足够的稀疏性。此外,训练数据不足会进一步增加性能下降的风险。为了应对这些挑战,一种新的激活函数 dReLU,旨在提高 LLM 激活稀疏性,以及高质量的训练数据混合比,以促进有效的稀疏化。此外,采用混合专家 (MoE) 模型中前馈网络 (FFN) 专家的稀疏激活模式来进一步提高效率。通过将神经元稀疏化方法应用于 Mistral 和 Mixtral 模型,每次推理迭代仅分别激活 25 亿和 43 亿个参数,同时实现更强大的模型性能。评估结果表明,这种
………………………………