Turbo Sparse：以最少的激活参数实现 LLM 最先进性能

大语言模型和具身智体及自动驾驶 · 公众号 · · 2024-06-14 00:28

文章预览

24年6月来自上交大论文“Turbo Sparse: Achieving LLM SOTA Performance with Minimal Activated Parameters”。利用激活稀疏性是一种很有前途的方法，可以显著加速大语言模型 (LLM) 的推理过程，而不会影响性能。然而，激活稀疏性由激活函数决定，而常用的激活函数如 SwiGLU 和 GeGLU 表现出有限的稀疏性。简单地用 ReLU 替换这些函数无法实现足够的稀疏性。此外，训练数据不足会进一步增加性能下降的风险。为了应对这些挑战，一种新的激活函数 dReLU，旨在提高 LLM 激活稀疏性，以及高质量的训练数据混合比，以促进有效的稀疏化。此外，采用混合专家 (MoE) 模型中前馈网络 (FFN) 专家的稀疏激活模式来进一步提高效率。通过将神经元稀疏化方法应用于 Mistral 和 Mixtral 模型，每次推理迭代仅分别激活 25 亿和 43 亿个参数，同时实现更强大的模型性能。评估结果表明，这种 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博