专栏名称: AINLP
关注AI、NLP相关技术,关注算法研发职位和课程;回复"文章"获取历史信息;双语聊天机器人"无名";中英翻译请输入:翻译 翻译内容;自动对联,请输入:上联 上联内容;调戏夸夸聊天机器人,请求夸、求赞;查询相似词,请输入: 相似词 词条
今天看啥  ›  专栏  ›  AINLP

对MoE模型的一些观察

AINLP  · 公众号  ·  · 2024-07-17 10:10

文章预览

包括清华和港科大的五所高校对几个MoE模型进行一些研究,并给出一些相应的模型设计建议。 1.MoE 当前主流的Sparse Mixture-of-Experts模型在N个专家中激活k个,k < N,具体建模如下 这里把 和 这两个行向量以及 这个列向量定义为一个neuron,这样每个专家就包含d_mid个专家,这些neuron后面会有分析。 2.研究对象 文章中选择了Mixtral 8x7B,DeepSeekMoE 和 Grok-1三个MoE模型作为研究对象,另外还加上了Mistral 7B这个dense模型作为对比。 各个模型设置对比如下 后续研究使用的相似度如无说明都是指cosine similarity。 3.Analysis of Static Parameters 对这些模型的静态参数研究主要是(1)MoE experts和(2)gating,这两个也是MoE最重要的部分。 3.1.MoE experts 参照《Transformer feed-forward layers are keyvalue memories》和《Empirical study on updating key-value memories in transformer feed-forward layers》的说法 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览