今天看啥  ›  专栏  ›  吃果冻不吐果冻皮

图解 MoE 模型

吃果冻不吐果冻皮  · 公众号  ·  · 2024-10-14 08:53

文章预览

原文: https://newsletter.maartengrootendorst.com/p/a-visual-guide-to-mixture-of-experts 在查看最新发布的LLMs时,你可能会在标题中看到“MoE”这个词。那么,这个“MoE”到底代表什么?为什么现在有这么多 LLM 都在使用它呢? 下面我们将通过 50 多个图示来详细探讨这一重要组件:专家混合模型(MoE)! 本指南将围绕 MoE 的两个主要组成部分——专家(Experts)和路由器(Router)——在典型的基于 LLM 架构中的应用展开讨论。 目录 第一部分:什么是专家混合模型? 第二部分:专家的角色 密集层(Dense Layers) 稀疏层(Sparse Layers) 专家能学到什么? 专家的架构 第三部分:路由机制 路由器(Router) 专家的选择 路由的复杂性 第四部分:负载平衡与优化 KeepTopK 策略 Token 选择策略 辅助损失函数 专家容量 使用 Switch Transformer 简化 MoE 切换层(Switching Layer) 容量因子(Capa ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览