文章预览
大模型智能|分享 来源 | 蓟梗@青稞AI MoE,全称 Mixture of Experts,混合专家模型。有很多人猜测 GPT-4 就是使用了 MoE 模型,让很多模型并行起来,加速了推理。阿里巴巴的通义千问大模型(Qwen)也是使用了 MoE,效果非常好。 本篇文章只给完全不明白 MoE 的同学介绍一下它的基本原理。 01 动机:为什么要提出 MoE? 在模型预测下一个 token 时,需要很多神经元进行计算,比如下图所示的 8x8 神经元(别数了,图片是 7x8,意思一下)。 但是呢根据经验,对结果起作用的重要的神经元,可能很少(如下图黄色的点)。 原来的权重矩阵,起关键作用的可能是很少一部分。 所以呢,我们就想,是不是可以把这些点进行重排(如下图),这样我们就能得到8个子模型(对应8列)。这样的话如果你想查询某个特定的专家知识,你就查询矩阵对应的列,然后只跟这
………………………………