专栏名称: 清熙
清晰、客观、理性探讨大模型(LLM)、人工智能(AI)、大数据(Big Data)、物联网(IoT)、云计算(Cloud)、供应链数字化等热点科技的原理、架构、实现与应用。
今天看啥  ›  专栏  ›  清熙

重新思考 MoE

清熙  · 公众号  ·  · 2025-01-04 18:46
    

文章预览

笔 者曾在  柏拉图表征与大模型内在  中简单点评过 MoE ( Mixture of Experts ) 混合专家技术: “顺便可以判断混合专家( MoE: Mixture of Experts )大模型组合模式,如果不能在 内部世界模型上做到对齐和互换 ,其输出将是一个人格分裂的结果。 这个MoE来自流行的“分而治之”的软件架构思想,借用到大模型组合模式,不能忽视内部世界模型的对齐。”       此处的内部世界模型指的是麻省理工学者讲的“现实的共享统计模型”,也等同于笔者所说的“ 以概率为表征的丰富范畴 ”,模型越大越丰富越准确。 GShard  MoE  大模型广泛采用的MoE架构是 GShard 【文献1】,学者们提出这一架构目标是提高 海量训练数据和计算资源下的模型质量,节约计算成本、降低编程难度,在并行设备上高效实现。 GShard 由一组轻量级标注API和对XLA编译器的扩展组成, 自 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览