专栏名称: 量子位
վ'ᴗ' ի 追踪AI行业和技术动态,这里更快一步!关注我们,回复“今天”,更多大新闻等你来发现
今天看啥  ›  专栏  ›  量子位

手机跑大模型提速4-5倍!微软亚研院开源新技术,有CPU就行

量子位  · 公众号  · AI  · 2024-08-09 12:40

文章预览

微软亚洲研究院 投稿 量子位 | 公众号 QbitAI 有CPU就能跑大模型,性能甚至超过NPU/GPU! 没错,为了 优化模型端侧部署 ,微软亚洲研究院提出了一种新技术—— T-MAC 。 这项技术 主打性价比 ,不仅能让端侧模型跑得更快,而且资源消耗量更少。 咋做到的?? 在CPU上高效部署低比特大语言模型 一般来说,要想在手机、PC、树莓派等端侧设备上使用大语言模型,我们需要解决 存储和计算问题 。 常见的方法是 模型量化 ,即将模型的参数量化到较低的比特数,比如4比特、3比特甚至更低,这样模型所需的存储空间和计算资源就会减少。 不过这也意味着,在执行推理时,需要进行 混合精度的矩阵乘法运算 (mpGEMM),即用低精度的权重和高精度的激活向量进行计算。 然而,现有的系统和硬件并不原生支持这种混合精度的矩阵乘法,因此它们通常需要将低 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览