天池,基于阿里云的开放数据处理服务ODPS,面向学术界开放海量数据和分布式计算资源,旨在打造“数据众智、众创”第一平台。在这里,人人都可以玩转大数据,共同探索数据众创新模式。
今天看啥  ›  专栏  ›  天池大数据科研平台

DeepSeek前实习生魔改MoE,用迭代机制把内存需求砍了42%,团队:“免费午餐”优化方法

天池大数据科研平台  · 公众号  · 大数据  · 2025-03-05 10:12
    

文章预览

本文转载来源:量子位公众号,西风发自凹非寺,不代表官方立场 DeepSeek MoE“变体”来了,200美元以内,内存需求减少17.6-42%! 名叫 CoE (Chain-of-Experts) ,被认为是一种“免费午餐”优化方法,突破了MoE并行独立处理token、整体参数数量较大需要大量内存资源的局限。 与并行处理不同,CoE使 专家能在单层内串行通信 ,形成一种迭代机制 ,即专家能“沟通”,在其它专家输出之上处理token。 研究团队在实验中发现,经过2次迭代的CoE,在相同的计算预算下将数学任务的验证损失从1.20降低至1.12,仅仅通过重构信息流就获得了 性能提升。 通过 扩展CoE的迭代次数 ,在性能相当的情况下,内存使用比通过增加模型层数或扩展专家选择数量的方法降低了17.6-42%。 另外,在专家组合自由度、专家使用效率等其它方面,CoE也都具有显著优势,专家组合增加823 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览