文章预览
↑ 点击 蓝字 关注极市平台 作者丨渣B 来源丨zartbot 编辑丨极市平台 极市导读 本文提出了一个关于如何演进MoE(Mixture of Experts)模型的猜想,主要是在MoE Routing的基础上再套一层,构建The Mixure of Expert Group(MoEG)。文章从代数和范畴论的角度分析了MoE模型的结构和计算过程,并探讨了如何通过两层Routing Gate来优化模型的并行计算和通信效率。 >> 加入极市CV技术交流群,走在计算机视觉的最前沿 TL;DR 这是一个关于如何演进MoE模型的猜想. 主要是在MoE Routing的基础上再套一层, 构建The Mixure of Expert Group(MoEG), 另一方面是在BIS一些新规出来后,探讨如何进一步用更低的算力,更松耦合的模型架构来适配. 先从MoE谈起 MoE的整个计算过程如下图所示: 从代数的角度来看,MoE计算实际上是对Token进行一次置换群的操作,构成 P为一个进行Token位置置换的稀疏矩阵
………………………………