DeepSeek前实习生魔改MoE，用迭代机制把内存需求砍了42%，团队：“免费午餐”优化方法

量子位 · 公众号 · AI · 2025-03-04 15:02

文章预览

西风发自凹非寺量子位 | 公众号 QbitAI DeepSeek MoE“变体”来了，200美元以内，内存需求减少17.6-42%！名叫 CoE （Chain-of-Experts），被认为是一种“免费午餐”优化方法，突破了MoE并行独立处理token、整体参数数量较大需要大量内存资源的局限。与并行处理不同，CoE使专家能在单层内串行通信，形成一种迭代机制，即专家能“沟通”，在其它专家输出之上处理token。研究团队在实验中发现，经过2次迭代的CoE，在相同的计算预算下将数学任务的验证损失从1.20降低至1.12，仅仅通过重构信息流就获得了性能提升。通过扩展CoE的迭代次数，在性能相当的情况下，内存使用比通过增加模型层数或扩展专家选择数量的方法降低了17.6-42%。另外，在专家组合自由度、专家使用效率等其它方面，CoE也都具有显著优势，专家组合增加823倍。目前，研究团队晒出 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博