一个从大三就接触NLP的小小NLPer,本公众号每天记录自己的一点一滴,每篇文章最后也有托福单词等新知识,学技术同时,也一点一滴积累额外的知识。期待与你在知识的殿堂与你相遇!
今天看啥  ›  专栏  ›  深度学习自然语言处理

MOE系列模型-浅谈

深度学习自然语言处理  · 公众号  ·  · 2024-08-14 22:17

文章预览

来自:NLP工作站 在本文中,梳理了近期 (24年7月前)部分 MOE 大模型的关键信息,包括它们的主要特点、亮点以及相关资源链接。涉及模型  Mixtral 8x7B,Mixtral 8x22B,DeepSeek-MoE,Qwen1.5-MoE,DeepSeek-V2。 原文:https://zhuanlan.zhihu.com/p/712676995 混合专家模型的 Transformer 模型 对于 MOE 的基础,相比 dense model,MOE 的预训练速度更快,推理速度更快,但需要大量的显存。此外,MOE 的训练也有一些独有的 tips,详细的 MOE 混合专家模型基础,推荐参考: 混合专家模型基础 对于一些经典的 MOE 架构模型,可以参考: 详解MoE模型的前世今生 Mixtral 8*7B 论文: https://arxiv.org/abs/2401.04088 huggingface 模型权重: https://huggingface.co/mistralai/Mixtral-8x7B-Instruct-v0.1 官方博客: https://mistral.ai/news/mixtral-of-experts/ huggingface 模型代码: https://github.com/huggingface/transformers/blob/main/src/transformers/mode ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览