文章预览
笔 者曾在 柏拉图表征与大模型内在 中简单点评过 MoE ( Mixture of Experts ) 混合专家技术: “顺便可以判断混合专家( MoE: Mixture of Experts )大模型组合模式,如果不能在 内部世界模型上做到对齐和互换 ,其输出将是一个人格分裂的结果。 这个MoE来自流行的“分而治之”的软件架构思想,借用到大模型组合模式,不能忽视内部世界模型的对齐。” 此处的内部世界模型指的是麻省理工学者讲的“现实的共享统计模型”,也等同于笔者所说的“ 以概率为表征的丰富范畴 ”,模型越大越丰富越准确。 GShard MoE 大模型广泛采用的MoE架构是 GShard 【文献1】,学者们提出这一架构目标是提高 海量训练数据和计算资源下的模型质量,节约计算成本、降低编程难度,在并行设备上高效实现。 GShard 由一组轻量级标注API和对XLA编译器的扩展组成, 自
………………………………