专栏名称: 量子位
վ'ᴗ' ի 追踪AI行业和技术动态,这里更快一步!关注我们,回复“今天”,更多大新闻等你来发现
今天看啥  ›  专栏  ›  量子位

DeepSeek前实习生魔改MoE,用迭代机制把内存需求砍了42%,团队:“免费午餐”优化方法

量子位  · 公众号  · AI  · 2025-03-04 15:02
    

文章预览

西风 发自 凹非寺 量子位 | 公众号 QbitAI DeepSeek MoE“变体”来了,200美元以内,内存需求减少17.6-42%! 名叫 CoE (Chain-of-Experts) ,被认为是一种“免费午餐”优化方法,突破了MoE并行独立处理token、整体参数数量较大需要大量内存资源的局限。 与并行处理不同,CoE使 专家能在单层内串行通信 ,形成一种迭代机制 ,即专家能“沟通”,在其它专家输出之上处理token。 研究团队在实验中发现,经过2次迭代的CoE,在相同的计算预算下将数学任务的验证损失从1.20降低至1.12,仅仅通过重构信息流就获得了 性能提升。 通过 扩展CoE的迭代次数 ,在性能相当的情况下,内存使用比通过增加模型层数或扩展专家选择数量的方法降低了17.6-42%。 另外,在专家组合自由度、专家使用效率等其它方面,CoE也都具有显著优势,专家组合增加823倍。 目前,研究团队晒出 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览