专栏名称: 深度学习自然语言处理

一个从大三就接触NLP的小小NLPer，本公众号每天记录自己的一点一滴，每篇文章最后也有托福单词等新知识，学技术同时，也一点一滴积累额外的知识。期待与你在知识的殿堂与你相遇！

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

MoE实验性工作Upcycling Large Language Models into Mixture of Experts

深度学习自然语言处理 · 公众号 · · 2024-10-19 23:16

文章预览

知乎：LLM迷思(已授权）链接：https://zhuanlan.zhihu.com/p/1431483173 Zijie大佬的最新工作，拜读了一下，对于我之前一些工作很有启发。包括之前"介绍LLM迷思：【分布式训练技术分享十二】Skywork-MoE 技术报告细节分析"中的一些结论和我之前mark的LLAMA PRO和"weight-selection" 的一些思考在这篇文章中都有体现。LLM发展到现在一些共性的结论，业界是比较一致，期待NVIDIA能多来点基础实验性的工作，毕竟计算资源太宝贵了。喜欢这个系列的，记得一键三连。 https://zhuanlan.zhihu.com/p/702224917 https://github.com/OscarXZQ/weight-selection 1. 摘要将预训练的稠密语言模型Upcycling为稀疏专家混合（MoE）模型是一种提高已训练模型容量的有效方法。然而，如何在大规模上进行最佳的Upcycling技术仍不明确。在这项工作中，作者对十亿参数规模语言模型的Upcycling方法和超参数进行了广泛研 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博