讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战
目录
相关文章推荐
今天看啥  ›  专栏  ›  大语言模型和具身智体及自动驾驶

Turbo Sparse:以最少的激活参数实现 LLM 最先进性能

大语言模型和具身智体及自动驾驶  · 公众号  ·  · 2024-06-14 00:28
    

文章预览

24年6月来自上交大论文“Turbo Sparse: Achieving LLM SOTA Performance with Minimal Activated Parameters”。 利用激活稀疏性是一种很有前途的方法,可以显著加速大语言模型 (LLM) 的推理过程,而不会影响性能。然而,激活稀疏性由激活函数决定,而常用的激活函数如 SwiGLU 和 GeGLU 表现出有限的稀疏性。简单地用 ReLU 替换这些函数无法实现足够的稀疏性。此外,训练数据不足会进一步增加性能下降的风险。为了应对这些挑战,一种新的激活函数 dReLU,旨在提高 LLM 激活稀疏性,以及高质量的训练数据混合比,以促进有效的稀疏化。此外,采用混合专家 (MoE) 模型中前馈网络 (FFN) 专家的稀疏激活模式来进一步提高效率。通过将神经元稀疏化方法应用于 Mistral 和 Mixtral 模型,每次推理迭代仅分别激活 25 亿和 43 亿个参数,同时实现更强大的模型性能。评估结果表明,这种 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览