大模型：混合专家模型（MoE）概述

新机器视觉 · 公众号 · · 2025-03-18 16:30

文章预览

转自：AI大模型前沿本文仅用于学术分享，如有侵权，请联系后台作删文处理随着GPT-4、DeepSeekMoE等模型的发布中均涉及到了混合专家模型（MoE，Mixture of Experts）的话题，MoE 模型已经成为开放 AI 社区的热门话题。2023年6月，美国知名骇客George Hotz在接受采访时透露，GPT-4由8个220B的专家模型组成。假如把8个专家模型比喻为比GPT-3还大的脑袋，那GPT-4就是一个八个头的超级大怪兽。 GPT-4（MoE）比GPT-3（Transformer）和GPT-3.5（RLHF）强大一个数量级的关键，可能就是来源于MoE架构。之前的GPT大模型增大参数的方法是在一个GPT模型上堆层数，现在变成了堆模型数。将来大语言模型的研究新方向，可能就不是增大单一模型的向量维度和层数了，而是增大整体架构的模型数了。GPT-4引入MoE似乎是个必然，因为无论是算力、数据、稳定性，万亿级参数的单个大模型训 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

奔腾融媒新闻天天看 · “黄油年糕”冲上热搜第一！医生紧急提醒！

昨天

奔腾融媒新闻天天看 · “黄油年糕”冲上热搜第一！医生紧急提醒！

昨天

BioArt · Mol Cell | 绘制粟酒裂殖酵母转录因子与蛋白和染色质的互作图谱

2 天前

生信宝典 · 2025 年5月 | 家系、肿瘤临床基因组/外显子组数据分析实战

3 天前

千山晚报 · 黄油年糕“杀疯了”？医生紧急提醒！

3 天前

中建装饰集团 · 【创新建证美好】“像造汽车一样造房子”：未来的建筑将会是怎样的？

9 月前

北京亦庄 · 明天开始！北京经开区发放汽车消费券、家电家居以旧换新消费券

8 月前