一个从大三就接触NLP的小小NLPer,本公众号每天记录自己的一点一滴,每篇文章最后也有托福单词等新知识,学技术同时,也一点一滴积累额外的知识。期待与你在知识的殿堂与你相遇!
今天看啥  ›  专栏  ›  深度学习自然语言处理

MoE实验性工作Upcycling Large Language Models into Mixture of Experts

深度学习自然语言处理  · 公众号  ·  · 2024-10-19 23:16

文章预览

知乎:LLM迷思(已授权) 链接:https://zhuanlan.zhihu.com/p/1431483173 Zijie大佬的最新工作,拜读了一下,对于我之前一些工作很有启发。包括之前"介绍LLM迷思:【分布式训练技术分享十二】Skywork-MoE 技术报告细节分析"中的一些结论和我之前mark的LLAMA PRO和"weight-selection" 的一些思考在这篇文章中都有体现。LLM发展到现在一些共性的结论,业界是比较一致,期待NVIDIA能多来点基础实验性的工作,毕竟计算资源太宝贵了。喜欢这个系列的,记得一键三连。 https://zhuanlan.zhihu.com/p/702224917 https://github.com/OscarXZQ/weight-selection 1. 摘要 将预训练的稠密语言模型Upcycling为稀疏专家混合(MoE)模型是一种提高已训练模型容量的有效方法。然而,如何在大规模上进行最佳的Upcycling技术仍不明确。在这项工作中,作者对十亿参数规模语言模型的Upcycling方法和超参数进行了广泛研 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览