文章预览
我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。 欢 迎 大 家 一 起 交 流 ! 学习 0 1 速读 deepseek v2(二) —— 理解DeepSeekMoE DeepSeekMoE核心创新点包括 Expert Segmentation 和 Shared Experts 隔离。在技术细节上,DeepSeekMoE 通过将 Feedforward Neural Network(FFN)的中间隐藏层分割,实现了 Expert Segmentation,从而提高了模型的专业化。同时,它采用了 Shared Experts 隔离策略,减少了不必要的参数冗余。这种架构使得 DeepSeekMoE 能够在激活少量专家的情况下,实现与密集模型相当的性能。例如,DeepSeekMoE 16B 只需 40.5% 的计算量就能达到 DeepSeek 7B 的性能水平。此外,DeepSeekMoE 在多尺度模型效果上展现了领先性能,从 2B 到 16B、再到 145B 的参数规模,均证实
………………………………