文章预览
原文: https://newsletter.maartengrootendorst.com/p/a-visual-guide-to-mixture-of-experts 在查看最新发布的LLMs时,你可能会在标题中看到“MoE”这个词。那么,这个“MoE”到底代表什么?为什么现在有这么多 LLM 都在使用它呢? 下面我们将通过 50 多个图示来详细探讨这一重要组件:专家混合模型(MoE)! 本指南将围绕 MoE 的两个主要组成部分——专家(Experts)和路由器(Router)——在典型的基于 LLM 架构中的应用展开讨论。 目录 第一部分:什么是专家混合模型? 第二部分:专家的角色 密集层(Dense Layers) 稀疏层(Sparse Layers) 专家能学到什么? 专家的架构 第三部分:路由机制 路由器(Router) 专家的选择 路由的复杂性 第四部分:负载平衡与优化 KeepTopK 策略 Token 选择策略 辅助损失函数 专家容量 使用 Switch Transformer 简化 MoE 切换层(Switching Layer) 容量因子(Capa
………………………………