今天看啥  ›  专栏  ›  微软亚洲研究院

完全激活稀疏大模型,Q-Sparse突破LLM推理效能

微软亚洲研究院  · 公众号  · AI  · 2024-07-18 17:00
    

文章预览

(本文阅读时间:9分钟) 编者按:激活稀疏性是解决大语言模型(LLMs)在推理阶段出现的计算成本高、内存占用大等问题的有效方法,可以有效减少激活张量中激活元素的数量。然而该方法无法实现 LLMs 激活的完全稀疏性,从而限制了推理阶段的效率提升。 对此,微软亚洲研究院提出 Q-Sparse 实现了 LLMs 激活的完全稀疏性。该研究不仅揭示了包括推理优化规模法则(inference-optimal scaling law)在内的多项新发现,还展现出广泛的兼容性,其与 BitNet 正交且互补,为 LLMs 推理中的数据类型提供了全面优化。此外,Q-Sparse 强大的适用性,对从头开始训练、持续训练以及微调都可以提供有效的支持。 本文转载自公众号“量子位”,原文标题《只激活3.8B参数,性能比肩同款7B模型!训练微调都能用,来自微软》。 只需激活60%的参数 ,就能实现与全激活稠密 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览