专栏名称: 清熙

清晰、客观、理性探讨大模型（LLM）、人工智能（AI）、大数据（Big Data）、物联网（IoT）、云计算（Cloud）、供应链数字化等热点科技的原理、架构、实现与应用。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

重新思考 MoE

清熙 · 公众号 · · 2025-01-04 18:46

文章预览

笔者曾在柏拉图表征与大模型内在中简单点评过 MoE （ Mixture of Experts ）混合专家技术： “顺便可以判断混合专家（ MoE: Mixture of Experts ）大模型组合模式，如果不能在内部世界模型上做到对齐和互换，其输出将是一个人格分裂的结果。这个MoE来自流行的“分而治之”的软件架构思想，借用到大模型组合模式，不能忽视内部世界模型的对齐。” 此处的内部世界模型指的是麻省理工学者讲的“现实的共享统计模型”，也等同于笔者所说的“ 以概率为表征的丰富范畴 ”，模型越大越丰富越准确。 GShard MoE 大模型广泛采用的MoE架构是 GShard 【文献1】，学者们提出这一架构目标是提高海量训练数据和计算资源下的模型质量，节约计算成本、降低编程难度，在并行设备上高效实现。 GShard 由一组轻量级标注API和对XLA编译器的扩展组成，自 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博