专栏名称: 大模型智能
机器学习算法、深度学习算法、自然语言处理等干货知识集中营
今天看啥  ›  专栏  ›  大模型智能

图解MoE是什么,以及大模型为什么需要?

大模型智能  · 公众号  ·  · 2024-07-04 00:00

文章预览

大模型智能|分享 来源 | 蓟梗@青稞AI MoE,全称 Mixture of Experts,混合专家模型。有很多人猜测 GPT-4 就是使用了 MoE 模型,让很多模型并行起来,加速了推理。阿里巴巴的通义千问大模型(Qwen)也是使用了 MoE,效果非常好。 本篇文章只给完全不明白 MoE 的同学介绍一下它的基本原理。 01 动机:为什么要提出 MoE? 在模型预测下一个 token 时,需要很多神经元进行计算,比如下图所示的 8x8 神经元(别数了,图片是 7x8,意思一下)。 但是呢根据经验,对结果起作用的重要的神经元,可能很少(如下图黄色的点)。 原来的权重矩阵,起关键作用的可能是很少一部分。 所以呢,我们就想,是不是可以把这些点进行重排(如下图),这样我们就能得到8个子模型(对应8列)。这样的话如果你想查询某个特定的专家知识,你就查询矩阵对应的列,然后只跟这 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览