文章预览
知乎:LLM迷思(已授权) 链接:https://zhuanlan.zhihu.com/p/1431483173 Zijie大佬的最新工作,拜读了一下,对于我之前一些工作很有启发。包括之前"介绍LLM迷思:【分布式训练技术分享十二】Skywork-MoE 技术报告细节分析"中的一些结论和我之前mark的LLAMA PRO和"weight-selection" 的一些思考在这篇文章中都有体现。LLM发展到现在一些共性的结论,业界是比较一致,期待NVIDIA能多来点基础实验性的工作,毕竟计算资源太宝贵了。喜欢这个系列的,记得一键三连。 https://zhuanlan.zhihu.com/p/702224917 https://github.com/OscarXZQ/weight-selection 1. 摘要 将预训练的稠密语言模型Upcycling为稀疏专家混合(MoE)模型是一种提高已训练模型容量的有效方法。然而,如何在大规模上进行最佳的Upcycling技术仍不明确。在这项工作中,作者对十亿参数规模语言模型的Upcycling方法和超参数进行了广泛研
………………………………