图解MoE是什么，以及大模型为什么需要？

大模型智能 · 公众号 · · 2024-07-04 00:00

文章预览

大模型智能｜分享来源 | 蓟梗@青稞AI MoE，全称 Mixture of Experts，混合专家模型。有很多人猜测 GPT-4 就是使用了 MoE 模型，让很多模型并行起来，加速了推理。阿里巴巴的通义千问大模型（Qwen）也是使用了 MoE，效果非常好。本篇文章只给完全不明白 MoE 的同学介绍一下它的基本原理。 01 动机：为什么要提出 MoE？在模型预测下一个 token 时，需要很多神经元进行计算，比如下图所示的 8x8 神经元（别数了，图片是 7x8，意思一下）。但是呢根据经验，对结果起作用的重要的神经元，可能很少（如下图黄色的点）。原来的权重矩阵，起关键作用的可能是很少一部分。所以呢，我们就想，是不是可以把这些点进行重排（如下图），这样我们就能得到8个子模型（对应8列）。这样的话如果你想查询某个特定的专家知识，你就查询矩阵对应的列，然后只跟这 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

哔哩哔哩 · 和陌生人拍结婚照，会发生什么

5 小时前

哔哩哔哩 · 豆瓣9.5，这部16年老番，是多少B站网友的青春？

昨天

哔哩哔哩 · 00后的《动物世界》，我能看一天

2 天前

哔哩哔哩 · B站开启TGA投票通道，黑神话获年度最佳提名！

3 天前

哔哩哔哩 · 看B站网友剪头发，笑着笑着就哭了

3 天前

每日怡见 · 用虾籽酿造的酱油！太鲜了～蘸油条、冷拌面，还可做下酒菜，馋哭隔壁家小孩……

3 月前

一条 · 极光淡水baby珠，幻彩迷人，爱迪生大紫珠，优雅惊艳

2 月前