主要观点总结
UltraMem是一个全新的稀疏模型架构,由字节研发,旨在解决目前主流的MoE架构和PKM架构在推理成本和速度上存在的问题。相比MoE架构,UltraMem推理速度提升2-6倍,推理成本最高可降低83%。该研究已被ICLR 2025接收。
关键观点总结
关键观点1: UltraMem架构的亮点
UltraMem兼顾访存和模型效果,通过多项技术优化,实现了高效的推理性能和模型性能。
关键观点2: MoE和PKM的局限性
MoE在推理场景中访存需求急剧增加,导致推理延迟上升;而PKM虽然访存效率高,但模型效果较差且扩展能力有限。
关键观点3: UltraMem架构的优化措施
UltraMem通过优化模型结构、改进value检索方式以及隐式扩展稀疏参数等多项技术优化,实现了更高效访存和更优质的value检索,同时降低了显存和部署成本。
关键观点4: UltraMem的评估结果
在模型性能评估中,UltraMem在680M、1.6B尺寸上效果显著;在消融实验中,相比MoE实现了最高达6倍的速度提升,推理成本最高可降低83%,表现出强大的扩展能力。
文章预览
豆包大模型团队 投稿 量子位 | 公众号 QbitAI 字节 出了个全新架构,把 推理成本 给狠狠地打了下去! 有多狠? 推理速度相比MoE架构提升2-6倍,推理成本最高可 降低83% 。 这个全新的稀疏模型架构叫做 UltraMem ,有效地解决了目前主流的MoE架构和PKM架构所存在的局限性。 例如MoE在做推理时,较小的batch size会激活全部专家,导致访存急剧上升,推理延迟增加;而PKM虽然减少了访存开销,但效果较差且扩展能力有限。 实验结果表明,训练规模达 2000 万 value的UltraMem模型,在同等计算资源下,可同时实现业界领先的推理速度和模型性能,为构建数十亿规模value或expert开辟了新路径。 这项研究目前已经被 ICLR 2025 接收。 那么UltraMem架构具体是如何做到这点的呢?我们继续往下看。 兼顾访存和模型效果 随着大语言模型能力的提升,所需的计算资源呈指数级增
………………………………