专栏名称: 机器学习初学者
号主黄博Github全球排名前90,3.6万Star!致力于为初学者提供学习路线和基础资料,公众号可以当作随身小抄,文章很全,建议收藏!点击菜单可以进入学习!
今天看啥  ›  专栏  ›  机器学习初学者

手机跑大模型提速4-5倍!微软亚研院开源新技术,有CPU就行

机器学习初学者  · 公众号  ·  · 2024-08-11 12:00

文章预览

微软亚洲研究院 投稿 量子位 | 公众号 QbitAI 有CPU就能跑大模型,性能甚至超过NPU/GPU! 没错,为了 优化模型端侧部署 ,微软亚洲研究院提出了一种新技术—— T-MAC 。 这项技术 主打性价比 ,不仅能让端侧模型跑得更快,而且资源消耗量更少。 咋做到的?? 在CPU上高效部署低比特大语言模型 一般来说,要想在手机、PC、树莓派等端侧设备上使用大语言模型,我们需要解决 存储和计算问题 。 常见的方法是 模型量化 ,即将模型的参数量化到较低的比特数,比如4比特、3比特甚至更低,这样模型所需的存储空间和计算资源就会减少。 不过这也意味着,在执行推理时,需要进行 混合精度的矩阵乘法运算 (mpGEMM),即用低精度的权重和高精度的激活向量进行计算。 然而,现有的系统和硬件并不原生支持这种混合精度的矩阵乘法,因此它们通常需要将低 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览