专栏名称: 图灵编辑部
是好书,把我们联系在一起
目录
相关文章推荐
今天看啥  ›  专栏  ›  图灵编辑部

混合专家模型 (MoE) 到底是什么?看完这篇,你也能讲明白!

图灵编辑部  · 公众号  ·  · 2025-02-07 11:20
    

文章预览

当我们查看最新发布的大语言模型(LLM)时,常常会看到标题中出现 MoE 这一术语。那么,这个 MoE 代表什么?为什么这么多 LLM 都在使用它呢? 如果你还不知道什么是  MoE ,那就码住今天的文章吧! 我们将图解  MoE ,用 50 张图细致地探索这一重要组件——混合专家模型(MoE)。 在这篇文章中,我们将深入探讨 MoE 的两个主要组件——专家和路由器,并了解它们在典型 LLM 架构中的应用。 什么是混合专家(MoE)? 混合专家(Mixture of Experts,简称 MoE)模型,是一种利用多个不同的子模型(或“专家”)来提升大语言模型(LLM)质量的技术。 MoE 架构主要由两个核心组件构成: 1.专家模块:每个前馈神经网络(FFNN)层包含一组“专家”,每次可从中选择一个子集。这些“专家”本身通常是 FFNN。   2.路由或者网关网络, 决定将哪些标记(token)分配 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览