连接人工智能技术人才和产业人才的交流平台
今天看啥  ›  专栏  ›  机器学习研究组订阅

CPU反超NPU,llama.cpp生成速度翻5倍!LLM端侧部署新范式T-MAC开源

机器学习研究组订阅  · 公众号  · AI  · 2024-08-13 19:05
    

文章预览

为增强设备上的智能性,在边缘设备部署大型语言模型(LLMs)成为了一个趋势,比如微软的Windows 11 AI + PC。 目前部署的大语言模型多会量化到低比特。然而,低比特LLMs在推理过程中需要进行低精度权重和高精度激活向量的混合精度矩阵乘法(mpGEMM)。现有的系统由于硬件缺乏对mpGEMM的原生支持,不得不将权重反量化以进行高精度计算。这种间接的方式导致了显著的推理开销,并且无法随着比特数进一步降低而获得加速。 为此,微软亚洲研究院、中国科学技术大学、中国科学院大学的研究人员联合开发了T-MAC。T-MAC采用基于查找表(LUT)的计算范式,无需反量化,直接支持混合精度矩阵乘,其高效的推理性能以及其统一且可扩展的特性为在资源受限的边缘设备上实际部署低比特LLMs铺平了道路。 代码:https://github.com/microsoft/T-MAC 论文:https://www.arxiv.o ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览