专栏名称: 数据派THU
本订阅号是“THU数据派”的姊妹账号,致力于传播大数据价值、培养数据思维。
目录
相关文章推荐
今天看啥  ›  专栏  ›  数据派THU

【伯克利博士论文】高效深度学习推理的全栈方法

数据派THU  · 公众号  · 大数据  · 2025-01-04 17:00
    

文章预览

来源:专知 本文 约3000字 ,建议阅读 5 分钟 本论文介绍了旨在提高Transformer推理过程中计算和内存效率的量化技术。 人工智能技术的最新进展促使了模型规模的前所未有增长,特别是大型语言模型(LLMs)的出现。 虽然这些模型在多个领域展示了出色的能力,但它们的指数级扩展也带来了显著的推理时间开销,例如内存需求增加、延迟增加和计算成本上升,从而使高效的部署和服务变得具有挑战性。本文通过全栈方法应对这些挑战,旨在提升人工智能推理栈四个关键组件的效率:模型优化、推理方法、模型架构和应用。 在模型优化方面,我们引入了量化技术来优化推理时的计算和内存需求。 I-BERT通过采用仅整数量化来优化计算,这实现了最高3.5倍的延迟加速,并使Transformer架构能够在仅支持整数运算的硬件上部署。SqueezeLLM采用极低位宽的权重量 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览