文章预览
在本文中,梳理了近期 (24年7月前)部分 MOE 大模型的关键信息,包括它们的主要特点、亮点以及相关资源链接。涉及模型 Mixtral 8x7B,Mixtral 8x22B,DeepSeek-MoE,Qwen1.5-MoE,DeepSeek-V2。 原文:https://zhuanlan.zhihu.com/p/712676995 混合专家模型的 Transformer 模型 对于 MOE 的基础,相比 dense model,MOE 的预训练速度更快,推理速度更快,但需要大量的显存。此外,MOE 的训练也有一些独有的 tips,详细的 MOE 混合专家模型基础,推荐参考: 混合专家模型基础 对于一些经典的 MOE 架构模型,可以参考: 详解MoE模型的前世今生 Mixtral 8*7B 论文: https://arxiv.org/abs/2401.04088 huggingface 模型权重: https://huggingface.co/mistralai/Mixtral-8x7B-Instruct-v0.1 官方博客: https://mistral.ai/news/mixtral-of-experts/ huggingface 模型代码: https://github.com/huggingface/transformers/blob/main/src/transformers/models/mixtral/modeling_mi
………………………………