这里是AI领域学习交流的平台!分享人工智能、机器学习、深度学习、计算机视觉、自然语言处理、算法原理、科技前沿、行业动态等,为您提供最有价值的知识和资讯。
今天看啥  ›  专栏  ›  人工智能与算法学习

探索混合专家(MoE)模型预训练:开源项目实操

人工智能与算法学习  · 公众号  ·  · 2024-08-13 21:16
    

文章预览

作者:Mantaverse@知乎,哥伦比亚大学 MOE模型是什么 相比于传统的Dense模型,MoE(Mixture of Experts)模型在结构上进行了优化,特别是在线性投影层方面。MoE模型将单一的全连接层替换成多个专家层(例如,Mixtral使用了8个专家层)。在Switch Transformer的论文中,我们了解到,每次进行token预测时,模型会从这8个专家层中选出两个用于线性推理。这种方法旨在提高模型的性能和效率。 Switch Transformer 这种设计有什么优势呢?   首先 ,它通过引入专家层,能够在每次计算中仅激活部分网络,从而减少计算资源的消耗。具体来说,MoE模型在推理阶段仅需计算两个被选中的专家层,而不是激活所有的专家层或整个网络。这使得计算量显著减少,从而降低了推理成本。 此外 ,虽然MoE模型整体参数量较大,但由于每次推理只使用部分专家层,实际参与计算的参数 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览