一个从大三就接触NLP的小小NLPer,本公众号每天记录自己的一点一滴,每篇文章最后也有托福单词等新知识,学技术同时,也一点一滴积累额外的知识。期待与你在知识的殿堂与你相遇!
今天看啥  ›  专栏  ›  深度学习自然语言处理

一份MoE 可视化指南

深度学习自然语言处理  · 公众号  ·  · 2024-10-08 22:11

文章预览

编辑:AI椰青 整理:https://newsletter.maartengrootendorst.com/p/a-visual-guide-to-mixture-of-experts 在查看最新发布的LLMs时,你可能会在标题中看到“MoE”这个词。那么,这个“MoE”到底代表什么?为什么现在有这么多 LLM 都在使用它呢? 在本视觉指南中,我们将通过 50 多个图示来详细探讨这一重要组件:专家混合模型(MoE)! 本指南将围绕 MoE 的两个主要组成部分——专家(Experts)和路由器(Router)——在典型的基于 LLM 架构中的应用展开讨论。 目录 第一部分:什么是专家混合模型? 第二部分:专家的角色 密集层(Dense Layers) 稀疏层(Sparse Layers) 专家能学到什么? 专家的架构 第三部分:路由机制 路由器(Router) 专家的选择 路由的复杂性 第四部分:负载平衡与优化 KeepTopK 策略 Token 选择策略 辅助损失函数 专家容量 使用 Switch Transformer 简化 MoE 切换层(Swi ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览