专栏名称: 深度学习自然语言处理

一个从大三就接触NLP的小小NLPer，本公众号每天记录自己的一点一滴，每篇文章最后也有托福单词等新知识，学技术同时，也一点一滴积累额外的知识。期待与你在知识的殿堂与你相遇！

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

MOE系列模型-浅谈

深度学习自然语言处理 · 公众号 · · 2024-08-14 22:17

文章预览

来自：NLP工作站在本文中，梳理了近期（24年7月前）部分 MOE 大模型的关键信息，包括它们的主要特点、亮点以及相关资源链接。涉及模型 Mixtral 8x7B，Mixtral 8x22B，DeepSeek-MoE，Qwen1.5-MoE，DeepSeek-V2。原文：https://zhuanlan.zhihu.com/p/712676995 混合专家模型的 Transformer 模型对于 MOE 的基础，相比 dense model，MOE 的预训练速度更快，推理速度更快，但需要大量的显存。此外，MOE 的训练也有一些独有的 tips，详细的 MOE 混合专家模型基础，推荐参考：混合专家模型基础对于一些经典的 MOE 架构模型，可以参考：详解MoE模型的前世今生 Mixtral 8*7B 论文: https://arxiv.org/abs/2401.04088 huggingface 模型权重: https://huggingface.co/mistralai/Mixtral-8x7B-Instruct-v0.1 官方博客: https://mistral.ai/news/mixtral-of-experts/ huggingface 模型代码: https://github.com/huggingface/transformers/blob/main/src/transformers/mode ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博