专栏名称: 新智元
智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
今天看啥  ›  专栏  ›  新智元

CPU反超NPU,llama.cpp生成速度翻5倍!LLM端侧部署新范式T-MAC开源

新智元  · 公众号  · AI  · 2024-08-13 12:42
    

主要观点总结

本文主要介绍了微软亚洲研究院等联合开发的T-MAC技术,它是一种基于查找表(LUT)的方法,专为在CPU上高效执行低比特大型语言模型(LLMs)推理而设计。T-MAC无需权重反量化,支持混合精度矩阵乘法(mpGEMM),显著降低了推理开销并提升了计算速度,为在边缘设备上部署大型语言模型铺平了道路。

关键观点总结

关键观点1: T-MAC技术介绍

T-MAC是一种基于查找表(LUT)的计算范式,用于在CPU上高效执行低比特大型语言模型推理。它无需权重反量化,直接支持混合精度矩阵乘法,显著减少推理开销并提高计算速度。

关键观点2: T-MAC技术优势

T-MAC的主要优势在于采用查找表计算范式,而非传统的乘累加(MAC)计算范式。它利用查找表直接支持低比特计算,消除了其他系统中必须的反量化操作,并且显著减少了乘法和加法操作的数量。

关键观点3: T-MAC在边缘设备部署的应用

T-MAC为在资源受限的边缘设备上实际部署低比特大型语言模型铺平了道路,其高效的推理性能和统一且可扩展的特性使其成为当前大模型部署的优选方案。

关键观点4: T-MAC与传统方法的对比

与传统方法相比,T-MAC在计算性能上随着比特数的降低而线性提高,并且达到相同生成速率时所需的核心数更少,具有显著的功耗优势。

关键观点5: T-MAC的实现挑战及优化措施

将基于比特为核心的查表计算实现在CPU上仍面临挑战,如随机访存和有限的片上内存使用。为此,微软亚洲研究院的研究员们为这种计算范式设计了高效的数据结构和计算流程,包括将LUT存入片上内存、改变矩阵axis计算顺序、设计最优矩阵分块方式、参数weights的布局优化以及对Intel/ARM CPU的针对性优化。


文章预览

   新智元报道   编辑:LRST 好困 【新智元导读】 T-MAC是一种创新的基于查找表(LUT)的方法,专为在CPU上高效执行低比特大型语言模型(LLMs)推理而设计,无需权重反量化,支持混合精度矩阵乘法(mpGEMM),显著降低了推理开销并提升了计算速度。 ‍ 为增强设备上的智能性,在边缘设备部署大型语言模型(LLMs)成为了一个趋势,比如微软的Windows 11 AI + PC。 目前部署的大语言模型多会量化到低比特。然而,低比特LLMs在推理过程中需要进行低精度权重和高精度激活向量的混合精度矩阵乘法(mpGEMM)。现有的系统由于硬件缺乏对mpGEMM的原生支持,不得不将权重反量化以进行高精度计算。这种间接的方式导致了显著的推理开销,并且无法随着比特数进一步降低而获得加速。 为此,微软亚洲研究院、中国科学技术大学、中国科学院大学的研究人员联 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览