文章预览
来源:专知 本文 约3000字 ,建议阅读 5 分钟 本论文介绍了旨在提高Transformer推理过程中计算和内存效率的量化技术。 人工智能技术的最新进展促使了模型规模的前所未有增长,特别是大型语言模型(LLMs)的出现。 虽然这些模型在多个领域展示了出色的能力,但它们的指数级扩展也带来了显著的推理时间开销,例如内存需求增加、延迟增加和计算成本上升,从而使高效的部署和服务变得具有挑战性。本文通过全栈方法应对这些挑战,旨在提升人工智能推理栈四个关键组件的效率:模型优化、推理方法、模型架构和应用。 在模型优化方面,我们引入了量化技术来优化推理时的计算和内存需求。 I-BERT通过采用仅整数量化来优化计算,这实现了最高3.5倍的延迟加速,并使Transformer架构能够在仅支持整数运算的硬件上部署。SqueezeLLM采用极低位宽的权重量
………………………………