专栏名称: 深度学习自然语言处理

一个从大三就接触NLP的小小NLPer，本公众号每天记录自己的一点一滴，每篇文章最后也有托福单词等新知识，学技术同时，也一点一滴积累额外的知识。期待与你在知识的殿堂与你相遇！

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

相关文章推荐

食业家 · 通过调研百家量贩折扣平台，我们发现竞争最激烈 ... · 2 天前

FT中文网 · 到达临界点：鳕鱼种群剧减带来的教训 · 4 天前

哈佛商业评论 · 25年全球化，TCL收获了3点经验 · 5 天前

21世纪商业评论 · 骑手闪送，手机店变了 · 6 天前

中国能源报 · 石破茂将接任日本首相 · 6 天前

今天看啥 › 专栏 › 深度学习自然语言处理

最强MoE完全开源模型发布啦~

深度学习自然语言处理 · 公众号 · · 2024-09-04 21:45

文章预览

这篇文章介绍了 OLMOE （Open Mixture-of-Experts Language Models）系列模型，这是一款开源的稀疏混合专家模型。OLMOE-1B-7B拥有70亿参数，但每个输入令牌仅使用10亿参数。该模型在5万亿令牌上进行预训练，并进一步适应以创建OLMOE-1B-7B-INSTRUCT。这些模型在相似活跃参数的模型中表现最佳，甚至超越了更大的模型，如Llama2-13B-Chat和DeepSeekMoE-16B。文章还展示了在MoE训练上的各种实验，分析了模型中的路由，显示了高度专业化，并开源了工作的所有方面：模型权重、训练数据、代码和日志。论文： OLMoE: Open Mixture-of-Experts Language Models 地址：https://arxiv.org/pdf/2409.02060 一、研究背景提出OLMoE ：一种完全开放且最先进的语言模型，利用稀疏的MoE（Mixture-of-Experts）。OLMOE-1B-7B模型在相似活跃参数数量的情况下，表现优于所有可用的模型，甚至超过了更大的模型如Llama2-13B-C ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博