混合专家模型 (MoE) 到底是什么？看完这篇，你也能讲明白！

图灵编辑部 · 公众号 · · 2025-02-07 11:20

文章预览

当我们查看最新发布的大语言模型（LLM）时，常常会看到标题中出现 MoE 这一术语。那么，这个 MoE 代表什么？为什么这么多 LLM 都在使用它呢？如果你还不知道什么是 MoE ，那就码住今天的文章吧！我们将图解 MoE ，用 50 张图细致地探索这一重要组件——混合专家模型（MoE）。在这篇文章中，我们将深入探讨 MoE 的两个主要组件——专家和路由器，并了解它们在典型 LLM 架构中的应用。什么是混合专家（MoE）？混合专家（Mixture of Experts，简称 MoE）模型，是一种利用多个不同的子模型（或“专家”）来提升大语言模型（LLM）质量的技术。 MoE 架构主要由两个核心组件构成： 1.专家模块：每个前馈神经网络（FFNN）层包含一组“专家”，每次可从中选择一个子集。这些“专家”本身通常是 FFNN。 2.路由或者网关网络，决定将哪些标记（token）分配 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博