只激活3.8B参数，性能比肩同款7B模型！训练微调都能用，来自微软

量子位 · 公众号 · AI · 2024-07-18 12:49

文章预览

克雷西发自凹非寺量子位 | 公众号 QbitAI 只需激活60%的参数，就能实现与全激活稠密模型相当的性能。微软亚洲研究院的一项新研究，实现了模型的完全稀疏激活，让推理成本大幅下降。而且适用范围广泛，无论是从头训练、继续训练还是微调，都能提供有效支持。该方法名为 Q-Sparse ，在神经元级别上实现了模型稀疏化，相比于其他方式粒度更细，在相同推理开销下，无论性能还是稀疏率都更好。名称之中，Q指的是量化（Quantization），意味着它除了普通模型之外，也兼容量化技术，适用于各种量化方式的模型。作者进一步表示，如果把Q-Sparse与模型量化技术结合，还可以实现更大程度的降本增效。另外在研究Q-Sparse的同时，团队也对参数规模、稀疏率和模型性能三者之间的关系进行了深入探寻，并发现了适用于模型推理优化的“Scaling ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

黄建同学 · 在RAG过程中，如何检索出正确的内容供AI参考，是降低AI幻觉，-20241029213426

2 天前

人工智能那点事 · 火爆全网的泰山“机器狗”，到底啥来头？

2 天前

爱可可-爱生活 · 【mdx - 执行Markdown中的代码块，让你能直接在Mar-20241028212913

3 天前

黄建同学 · 视频是机器学习的神经网络，太神奇了！能够识别手写的数字0-9。#-20241028181445

3 天前

爱可可-爱生活 · 【ngrid：数据浏览好帮手，就像命令行的“less”命令一样，-20241028142112

3 天前