全新超稀疏架构，推理成本比MoE直降83%！

人工智能与算法学习 · 公众号 · · 2025-02-12 15:01

文章预览

来源：量子位字节出了个全新架构，把推理成本给狠狠地打了下去！有多狠？推理速度相比MoE架构提升2-6倍，推理成本最高可降低83% 。这个全新的稀疏模型架构叫做 UltraMem ，有效地解决了目前主流的MoE架构和PKM架构所存在的局限性。例如MoE在做推理时，较小的batch size会激活全部专家，导致访存急剧上升，推理延迟增加；而PKM虽然减少了访存开销，但效果较差且扩展能力有限。实验结果表明，训练规模达 2000 万 value的UltraMem模型，在同等计算资源下，可同时实现业界领先的推理速度和模型性能，为构建数十亿规模value或expert开辟了新路径。这项研究目前已经被 ICLR 2025 接收。那么UltraMem架构具体是如何做到这点的呢？我们继续往下看。兼顾访存和模型效果随着大语言模型能力的提升，所需的计算资源呈指数级增长，这在实时应用等资源受限 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博