专栏名称: 瓦力算法学研所
我们是一个致力于分享人工智能、机器学习和数据科学方面理论与应用知识的公众号。我们将分享最新的人工智能和数据科学技术、案例、研究成果、新闻和趋势,以及如何应用这些技术来解决实际问题,探索每一项技术落地的可行性方案。
今天看啥  ›  专栏  ›  瓦力算法学研所

MoE实验性工作Upcycling Large Language Models into Mixture of Experts

瓦力算法学研所  · 公众号  ·  · 2024-11-01 13:41
    

文章预览

知乎:LLM迷思(已授权) 链接:https://zhuanlan.zhihu.com/p/1431483173 Zijie大佬的最新工作,拜读了一下,对于我之前一些工作很有启发。包括之前"介绍LLM迷思:【分布式训练技术分享十二】Skywork-MoE 技术报告细节分析"中的一些结论和我之前mark的LLAMA PRO和"weight-selection" 的一些思考在这篇文章中都有体现。LLM发展到现在一些共性的结论,业界是比较一致,期待NVIDIA能多来点基础实验性的工作,毕竟计算资源太宝贵了。喜欢这个系列的,记得一键三连。 https://zhuanlan.zhihu.com/p/702224917 https://github.com/OscarXZQ/weight-selection 1. 摘要 将预训练的稠密语言模型Upcycling为稀疏专家混合(MoE)模型是一种提高已训练模型容量的有效方法。然而,如何在大规模上进行最佳的Upcycling技术仍不明确。在这项工作中,作者对十亿参数规模语言模型的Upcycling方法和超参数进行了广泛研 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览