文章预览
包括清华和港科大的五所高校对几个MoE模型进行一些研究,并给出一些相应的模型设计建议。 1.MoE 当前主流的Sparse Mixture-of-Experts模型在N个专家中激活k个,k < N,具体建模如下 这里把 和 这两个行向量以及 这个列向量定义为一个neuron,这样每个专家就包含d_mid个专家,这些neuron后面会有分析。 2.研究对象 文章中选择了Mixtral 8x7B,DeepSeekMoE 和 Grok-1三个MoE模型作为研究对象,另外还加上了Mistral 7B这个dense模型作为对比。 各个模型设置对比如下 后续研究使用的相似度如无说明都是指cosine similarity。 3.Analysis of Static Parameters 对这些模型的静态参数研究主要是(1)MoE experts和(2)gating,这两个也是MoE最重要的部分。 3.1.MoE experts 参照《Transformer feed-forward layers are keyvalue memories》和《Empirical study on updating key-value memories in transformer feed-forward layers》的说法
………………………………